一種基于房源信息相似度與圖片識(shí)別的房源去重方法

基本信息

申請(qǐng)?zhí)?/td> CN201811010586.4 申請(qǐng)日 -
公開(公告)號(hào) CN109189963B 公開(公告)日 2021-07-06
申請(qǐng)公布號(hào) CN109189963B 申請(qǐng)公布日 2021-07-06
分類號(hào) G06F16/51 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張文戰(zhàn);楊麗娟;白峻峰;劉子耀;張凱 申請(qǐng)(專利權(quán))人 諸葛啟航(蘇州)科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100012 北京市朝陽(yáng)區(qū)北苑東路19號(hào)院1號(hào)樓13層(來廣營(yíng)宏源廣興孵化器A316)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于房源信息相似度與圖片識(shí)別的房源去重方法,包括以下步驟:步驟(1)、關(guān)鍵字段等值去重:判斷兩個(gè)房源同字段值是否相等,如果房源的信息相等,判定為一套房源,新來的房源不入庫(kù);步驟(2)、根據(jù)圖片鏈接,從源網(wǎng)站下載房源圖片,并進(jìn)行phash值計(jì)算,把相同phash值對(duì)應(yīng)的房源ID找出來等。本發(fā)明的優(yōu)點(diǎn)是:利用elasticsearch模塊的快速檢索及圖片的phash值,可以快速?gòu)暮A繄D片中找到重復(fù)圖片,從而篩選出疑似重復(fù)房源,結(jié)合房源關(guān)鍵屬性,實(shí)現(xiàn)精準(zhǔn)去重,即使經(jīng)紀(jì)人篡改信息,也能識(shí)別出來。