文本分類特征選擇方法及其在生物醫(yī)藥文本分類中的應(yīng)用

基本信息

申請?zhí)?/td> CN201510642985.2 申請日 -
公開(公告)號 CN105260437B 公開(公告)日 2018-11-23
申請公布號 CN105260437B 申請公布日 2018-11-23
分類號 G06F17/30;G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 陳一飛 申請(專利權(quán))人 南京睿暉數(shù)據(jù)技術(shù)有限公司
代理機(jī)構(gòu) 南京先科專利代理事務(wù)所(普通合伙) 代理人 裴素艷
地址 210000 江蘇省南京市浦口區(qū)江浦街道鳳凰大街10號-RH0001
法律狀態(tài) -

摘要

摘要 本發(fā)明一種文本分類特征選擇方法及其在生物醫(yī)藥文本分類中的應(yīng)用,采用基于淺層語法分析的局部語境相似度計算,提出特征選擇算法,基于特征詞局部語境相似性的度量,發(fā)現(xiàn)其是否存在于某些等特定模式中,來衡量其重要性。并采用基于局部語境相似度的特征選擇方法LLFilter方法,通過特征的過濾,使樣本能得到最好的分類效果,也就是使特征過濾后得到的樣本類別間離散度達(dá)到最高,類別內(nèi)離散度達(dá)到最低,從而提高各個類別之間的區(qū)分能力。本發(fā)明主要針在生物醫(yī)學(xué)文本分類任務(wù)中,利用文本中的局部語境信息,自動進(jìn)行特征重要性排序,優(yōu)化特征集合,降低特征空間的維度,能有效提高文本分類的性能。