一種基于房源信息相似度與圖片識別的房源去重方法
基本信息
申請?zhí)?/td> | CN201811010586.4 | 申請日 | - |
公開(公告)號 | CN109189963A | 公開(公告)日 | 2021-07-06 |
申請公布號 | CN109189963A | 申請公布日 | 2021-07-06 |
分類號 | G06F16/51 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張文戰(zhàn);楊麗娟;白峻峰;劉子耀;張凱 | 申請(專利權(quán))人 | 諸葛啟航(蘇州)科技有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 100012 北京市朝陽區(qū)北苑東路19號院1號樓13層(來廣營宏源廣興孵化器A316) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于房源信息相似度與圖片識別的房源去重方法,包括以下步驟:步驟(1)、關(guān)鍵字段等值去重:判斷兩個房源同字段值是否相等,如果房源的信息相等,判定為一套房源,新來的房源不入庫;步驟(2)、根據(jù)圖片鏈接,從源網(wǎng)站下載房源圖片,并進行phash值計算,把相同phash值對應(yīng)的房源ID找出來等。本發(fā)明的優(yōu)點是:利用elasticsearch模塊的快速檢索及圖片的phash值,可以快速從海量圖片中找到重復(fù)圖片,從而篩選出疑似重復(fù)房源,結(jié)合房源關(guān)鍵屬性,實現(xiàn)精準(zhǔn)去重,即使經(jīng)紀人篡改信息,也能識別出來。 |
