一種新詞提取方法及裝置

基本信息

申請?zhí)?/td> CN202110190709.2 申請日 -
公開(公告)號 CN112560448B 公開(公告)日 2021-06-22
申請公布號 CN112560448B 申請公布日 2021-06-22
分類號 G06F40/216;G06F40/289 分類 計算;推算;計數(shù);
發(fā)明人 藍建敏;池沐霖 申請(專利權)人 京華信息科技股份有限公司
代理機構 廣州三環(huán)專利商標代理有限公司 代理人 郭浩輝;顏希文
地址 510520 廣東省廣州市天河區(qū)高普路138號京華信息大樓中座
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種新詞提取方法,包括:獲取給定語料,并對給定語料進行分詞處理,獲得若干第一詞組;其中,給定語料包括若干篇文章;計算每一第一詞組的凝固度和自由度,繼而提取凝固度和自由度符合預設閾值條件的若干第一詞組,作為第二詞組;計算每一第二詞組在給定語料中各文章的篇頻;其中,篇頻為詞組在一篇文章中出現(xiàn)的次數(shù);根據(jù)各文章的文章影響力對每一第二詞組的各篇頻進行加權計算,獲得各第二詞組的加權篇頻;根據(jù)每一第二詞組的加權篇頻進行排序,并根據(jù)排序結果提取出新詞。通過實施本發(fā)明實施例能夠避免總詞頻較低的詞被遺漏,提高新詞提取的準確性。