關(guān)鍵詞提取方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201810155685.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108363694B | 公開(公告)日 | 2021-08-24 |
申請(qǐng)公布號(hào) | CN108363694B | 申請(qǐng)公布日 | 2021-08-24 |
分類號(hào) | G06F40/216;G06F16/35;G06F16/36 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鹿峰 | 申請(qǐng)(專利權(quán))人 | 北京窩頭網(wǎng)絡(luò)科技有限公司 |
代理機(jī)構(gòu) | 北京知呱呱知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 呂學(xué)文;武媛 |
地址 | 100022 北京市朝陽區(qū)建外SOHO西區(qū)10號(hào)樓2803 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種關(guān)鍵詞提取方法及裝置,該方法包括:步驟S1:獲取中文語料庫(kù)和外文語料庫(kù);步驟S2:對(duì)待提取關(guān)鍵詞的文章進(jìn)行預(yù)處理,得到若干個(gè)詞語;步驟S3:對(duì)該若干個(gè)詞語進(jìn)行分類,形成中文詞匯組和外文詞匯組;步驟S4:計(jì)算該中文詞匯組中每一個(gè)詞語在該待提取關(guān)鍵詞的文章中的tf值以及在該中文語料庫(kù)中的idf值,計(jì)算該外文詞匯組中每一個(gè)詞語在該待提取關(guān)鍵詞的文章中的tf值以及在該外文語料庫(kù)中的idf值,對(duì)于該若干個(gè)詞語中每一個(gè)詞語,根據(jù)其tf值以及idf值計(jì)算其權(quán)重;步驟S5:對(duì)該若干個(gè)詞語進(jìn)行過濾處理后從其中選出預(yù)設(shè)個(gè)數(shù)權(quán)重最大的詞語作為關(guān)鍵詞。本發(fā)明可以提高關(guān)鍵詞提取的準(zhǔn)確度。 |
