一種從文本中獲取目標(biāo)詞匯的方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201910152477.4 | 申請日 | - |
公開(公告)號 | CN109918658A | 公開(公告)日 | 2019-06-21 |
申請公布號 | CN109918658A | 申請公布日 | 2019-06-21 |
分類號 | G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 曾俊瑀; 張文斌; 賈顯伏; 喬詠田; 邢毅帆 | 申請(專利權(quán))人 | 云孚科技(北京)有限公司 |
代理機(jī)構(gòu) | 北京世譽(yù)鑫誠專利代理事務(wù)所(普通合伙) | 代理人 | 孫國棟 |
地址 | 100085 北京市海淀區(qū)上地五街7號一層101A室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開的從文本中獲取目標(biāo)詞匯的方法及系統(tǒng),涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,通過刪除文本中的空白符號,將文本中的標(biāo)點(diǎn)符號設(shè)置為空格符號,在文本的首部及尾部添加空格符號,設(shè)定文本片段的最大長度為K,根據(jù)最大長度K對文本進(jìn)行分割,生成多個長度不大于K的文本片段,分別計算各個文本片段的聚合度、左熵及右熵,根據(jù)公式Score=(left_entropy+right_entropy)×aggregation×frequence,分別計算各個文本片段的綜合分?jǐn)?shù),選取綜合分?jǐn)?shù)大于設(shè)定閾值的文本片段,得到候選詞匯,將候選詞匯與通用詞表進(jìn)行對比,識別候選詞匯與通用詞表之間存在的不同的詞匯并將該詞匯作為目標(biāo)詞匯,提高了獲取目標(biāo)詞匯的準(zhǔn)確度及效率。 |
