一種新詞提取方法及裝置

基本信息

申請?zhí)?/td> CN202110190709.2 申請日 -
公開(公告)號 CN112560448A 公開(公告)日 2021-06-22
申請公布號 CN112560448A 申請公布日 2021-06-22
分類號 G06F40/216;G06F40/289 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 藍(lán)建敏;池沐霖 申請(專利權(quán))人 京華信息科技股份有限公司
代理機(jī)構(gòu) 廣州三環(huán)專利商標(biāo)代理有限公司 代理人 郭浩輝;顏希文
地址 510520 廣東省廣州市天河區(qū)高普路138號京華信息大樓中座
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種新詞提取方法,包括:獲取給定語料,并對給定語料進(jìn)行分詞處理,獲得若干第一詞組;其中,給定語料包括若干篇文章;計(jì)算每一第一詞組的凝固度和自由度,繼而提取凝固度和自由度符合預(yù)設(shè)閾值條件的若干第一詞組,作為第二詞組;計(jì)算每一第二詞組在給定語料中各文章的篇頻;其中,篇頻為詞組在一篇文章中出現(xiàn)的次數(shù);根據(jù)各文章的文章影響力對每一第二詞組的各篇頻進(jìn)行加權(quán)計(jì)算,獲得各第二詞組的加權(quán)篇頻;根據(jù)每一第二詞組的加權(quán)篇頻進(jìn)行排序,并根據(jù)排序結(jié)果提取出新詞。通過實(shí)施本發(fā)明實(shí)施例能夠避免總詞頻較低的詞被遺漏,提高新詞提取的準(zhǔn)確性。