電商頁面的結(jié)構(gòu)化數(shù)據(jù)提取裝置、方法及可讀存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN201911094002.0 | 申請日 | - |
公開(公告)號 | CN110874428A | 公開(公告)日 | 2020-03-10 |
申請公布號 | CN110874428A | 申請公布日 | 2020-03-10 |
分類號 | G06F16/951;G06F16/955;G06Q30/06 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 吳良順 | 申請(專利權(quán))人 | 漢口北進出口服務(wù)有限公司 |
代理機構(gòu) | 深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 | 代理人 | 漢口北進出口服務(wù)有限公司 |
地址 | 430312 湖北省武漢市黃陂區(qū)漢口北三號倉儲中心漢口北國際貿(mào)易港三樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種電商頁面的結(jié)構(gòu)化數(shù)據(jù)提取方法、裝置及計算機可讀存儲介質(zhì),所述方法包括:獲取電商頁面并對所述電商頁面進行預(yù)處理;基于預(yù)處理后的電商頁面生成超文本標簽樹;從所述超文本標簽樹中遍歷出預(yù)設(shè)標簽的頁面文本;將遍歷得到的頁面文本中的預(yù)設(shè)屬性值與預(yù)設(shè)詞庫中的每一詞語進行逐一匹配,以得到與所述預(yù)設(shè)詞庫的詞語匹配的匹配文本;及將匹配得到的匹配文本按照預(yù)設(shè)順序進行排序并輸出商品結(jié)構(gòu)化摘要。本發(fā)明可對抓取的電商頁面進行解析,進而提取得到關(guān)于商品的結(jié)構(gòu)化信息集。 |
