文本內容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201610810851.1 申請日 -
公開(公告)號 CN106484768B 公開(公告)日 2019-12-31
申請公布號 CN106484768B 申請公布日 2019-12-31
分類號 G06F16/33;G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 李紅全 申請(專利權)人 天津海量信息技術股份有限公司
代理機構 天津市尚文知識產(chǎn)權代理有限公司 代理人 天津海量信息技術股份有限公司
地址 300020 天津市和平區(qū)南馬路11號麥購國際大廈23層
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種文本內容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)。該方法包括:按預設挑選規(guī)則從資訊文本中的顯著性區(qū)域中選出M個單句;對每一單句分別分詞,從分詞結果中選出每一單句的實體詞與短語并按預設權重排序;選出N個權重排列在前的實體詞與短語;將每一單句中選出的N個實體詞和短語按漢語拼音序排序,分別合并成一長文本;計算每一單句的長文本的crc64,作為每一單句的的局部特征;將M個單句的局部特征合并成一個特征集,作為該資訊文本的局部特征。本發(fā)明通過將一篇文本內容轉換成M個crc64字符表示,有利于創(chuàng)建基于單句的內容檢索系統(tǒng)和基于內容的局部特征集的內容消重系統(tǒng)。