一種基于TextRank的應(yīng)用偏好文本分類方法

基本信息

申請(qǐng)?zhí)?/td> CN201911106117.7 申請(qǐng)日 -
公開(公告)號(hào) CN111061869A 公開(公告)日 2020-04-24
申請(qǐng)公布號(hào) CN111061869A 申請(qǐng)公布日 2020-04-24
分類號(hào) G06F16/35;G06F40/284 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王海廷;楊從安 申請(qǐng)(專利權(quán))人 北京數(shù)字聯(lián)盟網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 北京慶峰財(cái)智知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 北京數(shù)字聯(lián)盟網(wǎng)絡(luò)科技有限公司
地址 100088 北京市海淀區(qū)知春路6號(hào)(錦秋國際大廈)16層B01
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于TextRank的應(yīng)用偏好文本分類方法,包括如下步驟:根據(jù)TextRank算法,生成每個(gè)應(yīng)用的關(guān)鍵詞字段,構(gòu)成第一關(guān)鍵詞庫;根據(jù)多個(gè)二級(jí)分類,為每個(gè)二級(jí)分類標(biāo)記一個(gè)種子關(guān)鍵詞;根據(jù)種子關(guān)鍵詞,在第一關(guān)鍵詞庫中模糊檢索包含所述種子關(guān)鍵詞的應(yīng)用,并將所述包含種子關(guān)鍵詞的應(yīng)用打上二級(jí)分類;再次使用TextRank算法,對(duì)所有二級(jí)分類下的所有應(yīng)用的種子關(guān)鍵詞進(jìn)行全量計(jì)算,生成所述多個(gè)二級(jí)分類下的第二關(guān)鍵詞庫;再次遍歷應(yīng)用表,對(duì)每一個(gè)關(guān)鍵詞字段中的內(nèi)容與第二關(guān)鍵詞庫進(jìn)行字符串相似度匹配,如果相似度低于預(yù)設(shè)閾值,則刪除所述應(yīng)用與當(dāng)前二級(jí)分類之間的關(guān)聯(lián)。本發(fā)明可以自學(xué)習(xí),根據(jù)每次生成的核心關(guān)鍵詞的效果,逐步剔除不相關(guān)的關(guān)鍵詞,提升準(zhǔn)確率。