文本去重的方法、裝置以及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202110891600.1 申請(qǐng)日 -
公開(公告)號(hào) CN113688629A 公開(公告)日 2021-11-23
申請(qǐng)公布號(hào) CN113688629A 申請(qǐng)公布日 2021-11-23
分類號(hào) G06F40/289;G06F16/35;G06K9/62;G06N3/04;G06N3/08 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 金博昊;陳凌云;李寧;徐彬;陳炎;湯鑫;張文琰;李明旭;李文婷;陳旭;馬麗媛 申請(qǐng)(專利權(quán))人 德邦證券股份有限公司
代理機(jī)構(gòu) 北京萬思博知識(shí)產(chǎn)權(quán)代理有限公司 代理人 劉冀
地址 200120 上海市浦東新區(qū)福山路500號(hào)城建國(guó)際中心18樓
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開了一種文本去重的方法、裝置以及存儲(chǔ)介質(zhì)。其中,文本去重的方法,包括:根據(jù)預(yù)先設(shè)置的分類模型,對(duì)獲取的資訊海量文本進(jìn)行分類,確定多個(gè)第一海量文本;利用預(yù)先設(shè)置的局部哈希敏感算法,對(duì)第一海量文本集合進(jìn)行文本去重,確定第二海量文本集合,其中第一海量文本集合中的文本包括文本內(nèi)容以及文本標(biāo)題;利用局部哈希敏感算法,根據(jù)第二海量文本集合中的文本標(biāo)題對(duì)第二海量文本集合進(jìn)行去重,確定第三海量文本集合;以及利用局部哈希敏感算法,根據(jù)第三海量文本集合中的文本內(nèi)容對(duì)第三海量文本集合進(jìn)行去重,確定第四海量文本集合。