一種基于文本信息抽取結(jié)果的去重方法、系統(tǒng)以及介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN202110341478.0 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112989791A | 公開(kāi)(公告)日 | 2021-06-18 |
申請(qǐng)公布號(hào) | CN112989791A | 申請(qǐng)公布日 | 2021-06-18 |
分類(lèi)號(hào) | G06F40/205;G06F40/295;G06Q30/08 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 賈新;李善平;田小亮;張金坤 | 申請(qǐng)(專利權(quán))人 | 河南拓普計(jì)算機(jī)網(wǎng)絡(luò)工程有限公司 |
代理機(jī)構(gòu) | 鄭州德勤知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 張微微 |
地址 | 100000 北京市朝陽(yáng)區(qū)北四環(huán)中路華嚴(yán)北里健翔3號(hào)地峻峰華亭嘉園C座住宅樓2011 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于文本信息抽取結(jié)果的去重方法、系統(tǒng)以及介質(zhì),其中所述去重方法具體包括以下步驟:對(duì)公共資源交易信息所在網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)化抽取,將抽取結(jié)果以文本數(shù)據(jù)記錄形式存儲(chǔ)在數(shù)據(jù)集中;根據(jù)預(yù)設(shè)多重分類(lèi)規(guī)則對(duì)數(shù)據(jù)集中所有文本數(shù)據(jù)記錄進(jìn)行細(xì)分;基于標(biāo)題和預(yù)設(shè)實(shí)體字段進(jìn)行組內(nèi)判重,當(dāng)組內(nèi)存在重復(fù)文本數(shù)據(jù)記錄時(shí),基于網(wǎng)站類(lèi)型和實(shí)體字段對(duì)重復(fù)文本數(shù)據(jù)記錄進(jìn)行評(píng)分,并根據(jù)評(píng)分進(jìn)行重復(fù)文本數(shù)據(jù)記錄的合并。 |
