一種基于房源信息相似度與圖片識(shí)別的房源去重方法
基本信息
申請(qǐng)?zhí)?/td> | CN201811010586.4 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN109189963B | 公開(公告)日 | 2021-07-06 |
申請(qǐng)公布號(hào) | CN109189963B | 申請(qǐng)公布日 | 2021-07-06 |
分類號(hào) | G06F16/51 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張文戰(zhàn);楊麗娟;白峻峰;劉子耀;張凱 | 申請(qǐng)(專利權(quán))人 | 諸葛啟航(蘇州)科技有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100012 北京市朝陽(yáng)區(qū)北苑東路19號(hào)院1號(hào)樓13層(來廣營(yíng)宏源廣興孵化器A316) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于房源信息相似度與圖片識(shí)別的房源去重方法,包括以下步驟:步驟(1)、關(guān)鍵字段等值去重:判斷兩個(gè)房源同字段值是否相等,如果房源的信息相等,判定為一套房源,新來的房源不入庫(kù);步驟(2)、根據(jù)圖片鏈接,從源網(wǎng)站下載房源圖片,并進(jìn)行phash值計(jì)算,把相同phash值對(duì)應(yīng)的房源ID找出來等。本發(fā)明的優(yōu)點(diǎn)是:利用elasticsearch模塊的快速檢索及圖片的phash值,可以快速?gòu)暮A繄D片中找到重復(fù)圖片,從而篩選出疑似重復(fù)房源,結(jié)合房源關(guān)鍵屬性,實(shí)現(xiàn)精準(zhǔn)去重,即使經(jīng)紀(jì)人篡改信息,也能識(shí)別出來。 |
