重要性加權(quán)的文本分類(lèi)特征選擇方法

基本信息

申請(qǐng)?zhí)?/td> CN201611228203.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN106611057B 公開(kāi)(公告)日 2019-08-13
申請(qǐng)公布號(hào) CN106611057B 申請(qǐng)公布日 2019-08-13
分類(lèi)號(hào) G06F16/35 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李保利 申請(qǐng)(專(zhuān)利權(quán))人 上海利連信息科技有限公司
代理機(jī)構(gòu) 上海容慧專(zhuān)利代理事務(wù)所(普通合伙) 代理人 上海利連信息科技有限公司
地址 200444 上海市寶山區(qū)上大路668號(hào)1幢1536室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種重要性加權(quán)的文本分類(lèi)特征選擇方法,包括:第一步驟:統(tǒng)計(jì)各候選特征在各類(lèi)別中出現(xiàn)的數(shù)據(jù)信息,統(tǒng)計(jì)時(shí)特別考慮了候選特征對(duì)文本的語(yǔ)義代表程度,即重要性;第二步驟:使用在第一步驟得到的所述數(shù)據(jù)信息,利用相關(guān)性統(tǒng)計(jì)量計(jì)算公式,計(jì)算各個(gè)候選特征對(duì)各個(gè)類(lèi)別的區(qū)分能力;第三步驟:匯總計(jì)算各個(gè)候選特征對(duì)所有類(lèi)別的總體區(qū)分能力,并且依據(jù)各個(gè)候選特征對(duì)所有類(lèi)別的總體區(qū)分能力對(duì)所有候選特征進(jìn)行排序,并且輸出經(jīng)由排序得到的特征列表。