數(shù)據(jù)處理方法、裝置及電子設(shè)備
基本信息
申請?zhí)?/td> | CN202011448200.5 | 申請日 | - |
公開(公告)號 | CN112579919A | 公開(公告)日 | 2021-03-30 |
申請公布號 | CN112579919A | 申請公布日 | 2021-03-30 |
分類號 | G06F40/295(2020.01)I;G06F16/9537(2019.01)I;G06K9/62(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 何永能 | 申請(專利權(quán))人 | 小紅書科技有限公司 |
代理機構(gòu) | 北京集佳知識產(chǎn)權(quán)代理有限公司 | 代理人 | 王嬌嬌 |
地址 | 200433上海市楊浦區(qū)黃興路2005弄2號(B樓)608-4室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開一種數(shù)據(jù)處理方法、裝置及電子設(shè)備。該方法包括:獲取待處理的地址數(shù)據(jù);對獲取的地址數(shù)據(jù)進行篩選,獲得相似地址數(shù)據(jù)對;提取相似地址數(shù)據(jù)對的特征信息,特征信息包括實體名稱的文本距離、實體名稱的前綴相似度、實體名稱的后綴相似度、實體名稱的編輯距離、以及實體地址的球面距離;將相似地址數(shù)據(jù)對的特征信息輸入預(yù)先完成訓(xùn)練的識別模型,得到預(yù)測結(jié)果;基于預(yù)測結(jié)果確定相似地址數(shù)據(jù)對包含的兩條地址數(shù)據(jù)是否為重復(fù)數(shù)據(jù)?;诒旧暾埞_的方案,能夠快速、準確地篩選出待處理的地址數(shù)據(jù)中的重復(fù)數(shù)據(jù)。?? |
