文本去重的方法、裝置以及存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202110891600.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113688629A | 公開(公告)日 | 2021-11-23 |
申請(qǐng)公布號(hào) | CN113688629A | 申請(qǐng)公布日 | 2021-11-23 |
分類號(hào) | G06F40/289;G06F16/35;G06K9/62;G06N3/04;G06N3/08 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 金博昊;陳凌云;李寧;徐彬;陳炎;湯鑫;張文琰;李明旭;李文婷;陳旭;馬麗媛 | 申請(qǐng)(專利權(quán))人 | 德邦證券股份有限公司 |
代理機(jī)構(gòu) | 北京萬思博知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 劉冀 |
地址 | 200120 上海市浦東新區(qū)福山路500號(hào)城建國(guó)際中心18樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)公開了一種文本去重的方法、裝置以及存儲(chǔ)介質(zhì)。其中,文本去重的方法,包括:根據(jù)預(yù)先設(shè)置的分類模型,對(duì)獲取的資訊海量文本進(jìn)行分類,確定多個(gè)第一海量文本;利用預(yù)先設(shè)置的局部哈希敏感算法,對(duì)第一海量文本集合進(jìn)行文本去重,確定第二海量文本集合,其中第一海量文本集合中的文本包括文本內(nèi)容以及文本標(biāo)題;利用局部哈希敏感算法,根據(jù)第二海量文本集合中的文本標(biāo)題對(duì)第二海量文本集合進(jìn)行去重,確定第三海量文本集合;以及利用局部哈希敏感算法,根據(jù)第三海量文本集合中的文本內(nèi)容對(duì)第三海量文本集合進(jìn)行去重,確定第四海量文本集合。 |
