一種對(duì)短文本自動(dòng)分類和識(shí)別主題詞的方法
基本信息
申請(qǐng)?zhí)?/td> | CN201510755236.0 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106649255A | 公開(公告)日 | 2017-05-10 |
申請(qǐng)公布號(hào) | CN106649255A | 申請(qǐng)公布日 | 2017-05-10 |
分類號(hào) | G06F17/27(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 不公告發(fā)明人 | 申請(qǐng)(專利權(quán))人 | 江蘇引跑網(wǎng)絡(luò)科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 211100 江蘇省南京市江寧開發(fā)區(qū)將軍大道37號(hào)翠屏科創(chuàng)園3層1306室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明的目的是提供一種針對(duì)短文本進(jìn)行自動(dòng)分類和識(shí)別主題詞的方法。此方法關(guān)鍵在于依賴于一個(gè)預(yù)置的大容量分類詞庫(kù),以此繞過對(duì)短文本分類的聚類算法要求。短文本將通過與大容量分類詞庫(kù)的詞條逐一比對(duì)獲取有助于分類和識(shí)別主題詞的特征信息。其方法是,短文本通過分詞,切分成若干詞語序列;對(duì)首句或首個(gè)段落的詞語增加權(quán)重;分類詞庫(kù)詞條也同樣分詞,這樣將獲得兩對(duì)詞語序列,對(duì)這兩對(duì)詞語序列做交叉比對(duì),如有匹配將按詞語自身的權(quán)重倍率累加命中計(jì)數(shù),對(duì)每個(gè)詞條計(jì)算命中計(jì)數(shù)值并適當(dāng)修正后,最終返回的分類是計(jì)數(shù)值最高的詞條。 |
