一種新詞提取方法及裝置
基本信息
申請?zhí)?/td> | CN202110190709.2 | 申請日 | - |
公開(公告)號 | CN112560448A | 公開(公告)日 | 2021-06-22 |
申請公布號 | CN112560448A | 申請公布日 | 2021-06-22 |
分類號 | G06F40/216;G06F40/289 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 藍(lán)建敏;池沐霖 | 申請(專利權(quán))人 | 京華信息科技股份有限公司 |
代理機(jī)構(gòu) | 廣州三環(huán)專利商標(biāo)代理有限公司 | 代理人 | 郭浩輝;顏希文 |
地址 | 510520 廣東省廣州市天河區(qū)高普路138號京華信息大樓中座 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種新詞提取方法,包括:獲取給定語料,并對給定語料進(jìn)行分詞處理,獲得若干第一詞組;其中,給定語料包括若干篇文章;計(jì)算每一第一詞組的凝固度和自由度,繼而提取凝固度和自由度符合預(yù)設(shè)閾值條件的若干第一詞組,作為第二詞組;計(jì)算每一第二詞組在給定語料中各文章的篇頻;其中,篇頻為詞組在一篇文章中出現(xiàn)的次數(shù);根據(jù)各文章的文章影響力對每一第二詞組的各篇頻進(jìn)行加權(quán)計(jì)算,獲得各第二詞組的加權(quán)篇頻;根據(jù)每一第二詞組的加權(quán)篇頻進(jìn)行排序,并根據(jù)排序結(jié)果提取出新詞。通過實(shí)施本發(fā)明實(shí)施例能夠避免總詞頻較低的詞被遺漏,提高新詞提取的準(zhǔn)確性。 |
