文本內容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201610810851.1 | 申請日 | - |
公開(公告)號 | CN106484768B | 公開(公告)日 | 2019-12-31 |
申請公布號 | CN106484768B | 申請公布日 | 2019-12-31 |
分類號 | G06F16/33;G06F17/27 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李紅全 | 申請(專利權)人 | 天津海量信息技術股份有限公司 |
代理機構 | 天津市尚文知識產(chǎn)權代理有限公司 | 代理人 | 天津海量信息技術股份有限公司 |
地址 | 300020 天津市和平區(qū)南馬路11號麥購國際大廈23層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種文本內容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)。該方法包括:按預設挑選規(guī)則從資訊文本中的顯著性區(qū)域中選出M個單句;對每一單句分別分詞,從分詞結果中選出每一單句的實體詞與短語并按預設權重排序;選出N個權重排列在前的實體詞與短語;將每一單句中選出的N個實體詞和短語按漢語拼音序排序,分別合并成一長文本;計算每一單句的長文本的crc64,作為每一單句的的局部特征;將M個單句的局部特征合并成一個特征集,作為該資訊文本的局部特征。本發(fā)明通過將一篇文本內容轉換成M個crc64字符表示,有利于創(chuàng)建基于單句的內容檢索系統(tǒng)和基于內容的局部特征集的內容消重系統(tǒng)。 |
