一種新聞內(nèi)容的查重方法、系統(tǒng)及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201911364865.5 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN113051907A | 公開(kāi)(公告)日 | 2021-06-29 |
申請(qǐng)公布號(hào) | CN113051907A | 申請(qǐng)公布日 | 2021-06-29 |
分類(lèi)號(hào) | G06F40/289;G06F16/215;G06F16/22;G06F16/25 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 程剛;張劍;王昕;劉軼;黃石磊;宋曉;楊大明 | 申請(qǐng)(專(zhuān)利權(quán))人 | 深圳市北科瑞聲科技股份有限公司 |
代理機(jī)構(gòu) | 深圳市萬(wàn)商天勤知識(shí)產(chǎn)權(quán)事務(wù)所(普通合伙) | 代理人 | 羅建平 |
地址 | 518000 廣東省深圳市南山區(qū)高新區(qū)南區(qū)深港產(chǎn)學(xué)研基地大樓西座四樓W406室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種新聞內(nèi)容的查重方法、系統(tǒng)及裝置,方法包括:對(duì)采集的新聞數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換處理,將處理后的新聞數(shù)據(jù)轉(zhuǎn)為L(zhǎng)ist列表;對(duì)得到的列表進(jìn)行初步的去重處理,以降低列表中新聞數(shù)據(jù)的重復(fù)度;將列表中有效數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù);對(duì)數(shù)據(jù)庫(kù)中的新聞數(shù)據(jù)建立全文索引;基于全文索引,從數(shù)據(jù)庫(kù)中查找與目標(biāo)新聞內(nèi)容重復(fù)的新聞數(shù)據(jù)。對(duì)于日益增長(zhǎng)的數(shù)據(jù),本發(fā)明首先對(duì)列表中的新聞數(shù)據(jù)進(jìn)行初步的去重處理,再通過(guò)全文索引作進(jìn)一步的新聞去重。相對(duì)于無(wú)監(jiān)督的方法,本發(fā)明可以使其抽取的性能越來(lái)越好。而相對(duì)于有監(jiān)督的方法,本發(fā)明對(duì)數(shù)據(jù)的依賴(lài)比現(xiàn)有的方法低。 |
