關(guān)鍵詞提取方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201810155685.5 申請(qǐng)日 -
公開(公告)號(hào) CN108363694A 公開(公告)日 2018-08-03
申請(qǐng)公布號(hào) CN108363694A 申請(qǐng)公布日 2018-08-03
分類號(hào) G06F17/27;G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 鹿峰 申請(qǐng)(專利權(quán))人 北京窩頭網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 北京知呱呱知識(shí)產(chǎn)權(quán)代理有限公司 代理人 呂學(xué)文;武媛
地址 100022 北京市朝陽區(qū)建外SOHO西區(qū)10號(hào)樓2803
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種關(guān)鍵詞提取方法及裝置,該方法包括:步驟S1:獲取中文語料庫和外文語料庫;步驟S2:對(duì)待提取關(guān)鍵詞的文章進(jìn)行預(yù)處理,得到若干個(gè)詞語;步驟S3:對(duì)該若干個(gè)詞語進(jìn)行分類,形成中文詞匯組和外文詞匯組;步驟S4:計(jì)算該中文詞匯組中每一個(gè)詞語在該待提取關(guān)鍵詞的文章中的tf值以及在該中文語料庫中的idf值,計(jì)算該外文詞匯組中每一個(gè)詞語在該待提取關(guān)鍵詞的文章中的tf值以及在該外文語料庫中的idf值,對(duì)于該若干個(gè)詞語中每一個(gè)詞語,根據(jù)其tf值以及idf值計(jì)算其權(quán)重;步驟S5:對(duì)該若干個(gè)詞語進(jìn)行過濾處理后從其中選出預(yù)設(shè)個(gè)數(shù)權(quán)重最大的詞語作為關(guān)鍵詞。本發(fā)明可以提高關(guān)鍵詞提取的準(zhǔn)確度。