文本分類特征選擇方法及其在生物醫(yī)藥文本分類中的應用

基本信息

申請?zhí)?/td> CN201510642985.2 申請日 -
公開(公告)號 CN105260437A 公開(公告)日 2016-01-20
申請公布號 CN105260437A 申請公布日 2016-01-20
分類號 G06F17/30;G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 陳一飛 申請(專利權)人 南京睿暉數(shù)據(jù)技術有限公司
代理機構 北京天平專利商標代理有限公司 代理人 裴素艷
地址 210000 江蘇省南京市浦口區(qū)江浦街道鳳凰大街10號-RH0001
法律狀態(tài) -

摘要

摘要 本發(fā)明一種文本分類特征選擇方法及其在生物醫(yī)藥文本分類中的應用,采用基于淺層語法分析的局部語境相似度計算,提出特征選擇算法,基于特征詞局部語境相似性的度量,發(fā)現(xiàn)其是否存在于某些等特定模式中,來衡量其重要性。并采用基于局部語境相似度的特征選擇方法LLFilter方法,通過特征的過濾,使樣本能得到最好的分類效果,也就是使特征過濾后得到的樣本類別間離散度達到最高,類別內(nèi)離散度達到最低,從而提高各個類別之間的區(qū)分能力。本發(fā)明主要針在生物醫(yī)學文本分類任務中,利用文本中的局部語境信息,自動進行特征重要性排序,優(yōu)化特征集合,降低特征空間的維度,能有效提高文本分類的性能。