一種基于房源信息相似度與圖片識別的房源去重方法

基本信息

申請?zhí)?/td> CN201811010586.4 申請日 -
公開(公告)號 CN109189963A 公開(公告)日 2021-07-06
申請公布號 CN109189963A 申請公布日 2021-07-06
分類號 G06F16/51 分類 計算;推算;計數(shù);
發(fā)明人 張文戰(zhàn);楊麗娟;白峻峰;劉子耀;張凱 申請(專利權(quán))人 諸葛啟航(蘇州)科技有限公司
代理機構(gòu) - 代理人 -
地址 100012 北京市朝陽區(qū)北苑東路19號院1號樓13層(來廣營宏源廣興孵化器A316)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于房源信息相似度與圖片識別的房源去重方法,包括以下步驟:步驟(1)、關(guān)鍵字段等值去重:判斷兩個房源同字段值是否相等,如果房源的信息相等,判定為一套房源,新來的房源不入庫;步驟(2)、根據(jù)圖片鏈接,從源網(wǎng)站下載房源圖片,并進行phash值計算,把相同phash值對應(yīng)的房源ID找出來等。本發(fā)明的優(yōu)點是:利用elasticsearch模塊的快速檢索及圖片的phash值,可以快速從海量圖片中找到重復(fù)圖片,從而篩選出疑似重復(fù)房源,結(jié)合房源關(guān)鍵屬性,實現(xiàn)精準(zhǔn)去重,即使經(jīng)紀人篡改信息,也能識別出來。