電商頁面的結(jié)構(gòu)化數(shù)據(jù)提取裝置、方法及可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201911094002.0 申請日 -
公開(公告)號 CN110874428A 公開(公告)日 2020-03-10
申請公布號 CN110874428A 申請公布日 2020-03-10
分類號 G06F16/951;G06F16/955;G06Q30/06 分類 計算;推算;計數(shù);
發(fā)明人 吳良順 申請(專利權(quán))人 漢口北進出口服務(wù)有限公司
代理機構(gòu) 深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 代理人 漢口北進出口服務(wù)有限公司
地址 430312 湖北省武漢市黃陂區(qū)漢口北三號倉儲中心漢口北國際貿(mào)易港三樓
法律狀態(tài) -

摘要

摘要 一種電商頁面的結(jié)構(gòu)化數(shù)據(jù)提取方法、裝置及計算機可讀存儲介質(zhì),所述方法包括:獲取電商頁面并對所述電商頁面進行預(yù)處理;基于預(yù)處理后的電商頁面生成超文本標簽樹;從所述超文本標簽樹中遍歷出預(yù)設(shè)標簽的頁面文本;將遍歷得到的頁面文本中的預(yù)設(shè)屬性值與預(yù)設(shè)詞庫中的每一詞語進行逐一匹配,以得到與所述預(yù)設(shè)詞庫的詞語匹配的匹配文本;及將匹配得到的匹配文本按照預(yù)設(shè)順序進行排序并輸出商品結(jié)構(gòu)化摘要。本發(fā)明可對抓取的電商頁面進行解析,進而提取得到關(guān)于商品的結(jié)構(gòu)化信息集。