一種基于TextRank的應(yīng)用偏好文本分類方法
基本信息
申請(qǐng)?zhí)?/td> | CN201911106117.7 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN111061869A | 公開(公告)日 | 2020-04-24 |
申請(qǐng)公布號(hào) | CN111061869A | 申請(qǐng)公布日 | 2020-04-24 |
分類號(hào) | G06F16/35;G06F40/284 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王海廷;楊從安 | 申請(qǐng)(專利權(quán))人 | 北京數(shù)字聯(lián)盟網(wǎng)絡(luò)科技有限公司 |
代理機(jī)構(gòu) | 北京慶峰財(cái)智知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 北京數(shù)字聯(lián)盟網(wǎng)絡(luò)科技有限公司 |
地址 | 100088 北京市海淀區(qū)知春路6號(hào)(錦秋國際大廈)16層B01 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于TextRank的應(yīng)用偏好文本分類方法,包括如下步驟:根據(jù)TextRank算法,生成每個(gè)應(yīng)用的關(guān)鍵詞字段,構(gòu)成第一關(guān)鍵詞庫;根據(jù)多個(gè)二級(jí)分類,為每個(gè)二級(jí)分類標(biāo)記一個(gè)種子關(guān)鍵詞;根據(jù)種子關(guān)鍵詞,在第一關(guān)鍵詞庫中模糊檢索包含所述種子關(guān)鍵詞的應(yīng)用,并將所述包含種子關(guān)鍵詞的應(yīng)用打上二級(jí)分類;再次使用TextRank算法,對(duì)所有二級(jí)分類下的所有應(yīng)用的種子關(guān)鍵詞進(jìn)行全量計(jì)算,生成所述多個(gè)二級(jí)分類下的第二關(guān)鍵詞庫;再次遍歷應(yīng)用表,對(duì)每一個(gè)關(guān)鍵詞字段中的內(nèi)容與第二關(guān)鍵詞庫進(jìn)行字符串相似度匹配,如果相似度低于預(yù)設(shè)閾值,則刪除所述應(yīng)用與當(dāng)前二級(jí)分類之間的關(guān)聯(lián)。本發(fā)明可以自學(xué)習(xí),根據(jù)每次生成的核心關(guān)鍵詞的效果,逐步剔除不相關(guān)的關(guān)鍵詞,提升準(zhǔn)確率。 |
