電商頁面的結(jié)構(gòu)化數(shù)據(jù)提取裝置、方法及可讀存儲(chǔ)介質(zhì)
基本信息
申請(qǐng)?zhí)?/td> | CN201911094002.0 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110874428A | 公開(公告)日 | 2020-03-10 |
申請(qǐng)公布號(hào) | CN110874428A | 申請(qǐng)公布日 | 2020-03-10 |
分類號(hào) | G06F16/951;G06F16/955;G06Q30/06 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 吳良順 | 申請(qǐng)(專利權(quán))人 | 漢口北進(jìn)出口服務(wù)有限公司 |
代理機(jī)構(gòu) | 深圳市賽恩倍吉知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 漢口北進(jìn)出口服務(wù)有限公司 |
地址 | 430312 湖北省武漢市黃陂區(qū)漢口北三號(hào)倉儲(chǔ)中心漢口北國際貿(mào)易港三樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種電商頁面的結(jié)構(gòu)化數(shù)據(jù)提取方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述方法包括:獲取電商頁面并對(duì)所述電商頁面進(jìn)行預(yù)處理;基于預(yù)處理后的電商頁面生成超文本標(biāo)簽樹;從所述超文本標(biāo)簽樹中遍歷出預(yù)設(shè)標(biāo)簽的頁面文本;將遍歷得到的頁面文本中的預(yù)設(shè)屬性值與預(yù)設(shè)詞庫中的每一詞語進(jìn)行逐一匹配,以得到與所述預(yù)設(shè)詞庫的詞語匹配的匹配文本;及將匹配得到的匹配文本按照預(yù)設(shè)順序進(jìn)行排序并輸出商品結(jié)構(gòu)化摘要。本發(fā)明可對(duì)抓取的電商頁面進(jìn)行解析,進(jìn)而提取得到關(guān)于商品的結(jié)構(gòu)化信息集。 |
