海量數(shù)據(jù)實(shí)體相似對(duì)確定方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202010499977.8 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111737462A | 公開(kāi)(公告)日 | 2020-10-02 |
申請(qǐng)公布號(hào) | CN111737462A | 申請(qǐng)公布日 | 2020-10-02 |
分類號(hào) | G06F16/35(2019.01)I | 分類 | - |
發(fā)明人 | 王宏志;秦謙;姜濤 | 申請(qǐng)(專利權(quán))人 | 江蘇名通信息科技有限公司 |
代理機(jī)構(gòu) | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 江蘇名通信息科技有限公司 |
地址 | 212004江蘇省鎮(zhèn)江市京口區(qū)學(xué)府路118號(hào)京口高創(chuàng)中心6樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了海量數(shù)據(jù)實(shí)體相似對(duì)確定方法和系統(tǒng),包括對(duì)數(shù)據(jù)根據(jù)相同屬性值進(jìn)行實(shí)體初步聚類;根據(jù)實(shí)體聚類結(jié)果確定初選相似實(shí)體對(duì);計(jì)算初選相似實(shí)體對(duì)在所有屬性下的總相似度,將獲得的總相似度與預(yù)先確定的相似度閾值進(jìn)行比較,獲得確定的相似實(shí)體對(duì)集合。本發(fā)明首先進(jìn)行了初選相似實(shí)體對(duì)的識(shí)別,再次基礎(chǔ)上在進(jìn)行相似實(shí)體對(duì)的確認(rèn),能夠快速有效地進(jìn)行大數(shù)據(jù)量、更新頻繁和具有復(fù)雜結(jié)構(gòu)數(shù)據(jù)上的實(shí)體相似度的判定。?? |
