文本分類特征選擇方法及其在生物醫(yī)藥文本分類中的應(yīng)用
基本信息
申請?zhí)?/td> | CN201510642985.2 | 申請日 | - |
公開(公告)號 | CN105260437B | 公開(公告)日 | 2018-11-23 |
申請公布號 | CN105260437B | 申請公布日 | 2018-11-23 |
分類號 | G06F17/30;G06F17/27 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陳一飛 | 申請(專利權(quán))人 | 南京睿暉數(shù)據(jù)技術(shù)有限公司 |
代理機(jī)構(gòu) | 南京先科專利代理事務(wù)所(普通合伙) | 代理人 | 裴素艷 |
地址 | 210000 江蘇省南京市浦口區(qū)江浦街道鳳凰大街10號-RH0001 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明一種文本分類特征選擇方法及其在生物醫(yī)藥文本分類中的應(yīng)用,采用基于淺層語法分析的局部語境相似度計算,提出特征選擇算法,基于特征詞局部語境相似性的度量,發(fā)現(xiàn)其是否存在于某些等特定模式中,來衡量其重要性。并采用基于局部語境相似度的特征選擇方法LLFilter方法,通過特征的過濾,使樣本能得到最好的分類效果,也就是使特征過濾后得到的樣本類別間離散度達(dá)到最高,類別內(nèi)離散度達(dá)到最低,從而提高各個類別之間的區(qū)分能力。本發(fā)明主要針在生物醫(yī)學(xué)文本分類任務(wù)中,利用文本中的局部語境信息,自動進(jìn)行特征重要性排序,優(yōu)化特征集合,降低特征空間的維度,能有效提高文本分類的性能。 |
