一種抽取網(wǎng)頁(yè)半結(jié)構(gòu)化數(shù)據(jù)的方法

基本信息

申請(qǐng)?zhí)?/td> CN201810953361.6 申請(qǐng)日 -
公開(公告)號(hào) CN109657114A 公開(公告)日 2019-04-19
申請(qǐng)公布號(hào) CN109657114A 申請(qǐng)公布日 2019-04-19
分類號(hào) G06F16/951(2019.01)I; G06F16/9535(2019.01)I; G06F16/81(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張露晨; 唐積強(qiáng); 馬秀娟; 徐小磊; 蘇沐冉; 李傳海; 吳震; 王石 申請(qǐng)(專利權(quán))人 中科國(guó)力(鎮(zhèn)江)智能技術(shù)有限公司
代理機(jī)構(gòu) 南京知識(shí)律師事務(wù)所 代理人 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心; 中科國(guó)力(鎮(zhèn)江)智能技術(shù)有限公司
地址 100020 北京市朝陽(yáng)區(qū)裕民路甲3號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種抽取網(wǎng)頁(yè)半結(jié)構(gòu)化數(shù)據(jù)的方法,包括:從web站點(diǎn)爬取頁(yè)面;人工定制化爬取目標(biāo)頁(yè)的url;配置一類網(wǎng)站的關(guān)鍵詞詞根;對(duì)類似的網(wǎng)頁(yè)進(jìn)行分析,根據(jù)case1,case2,case3進(jìn)行分類判別,并對(duì)復(fù)雜的嵌套情況加以處理,抽取出網(wǎng)頁(yè)模板。通過(guò)指定的url選出同類(欄目)url,同欄目url對(duì)應(yīng)的html文本結(jié)構(gòu)相似,遍歷所有html節(jié)點(diǎn),通過(guò)節(jié)點(diǎn)間的聯(lián)系或節(jié)點(diǎn)本身,發(fā)現(xiàn)對(duì)應(yīng)關(guān)鍵詞的模板。從一個(gè)網(wǎng)站的所有子url中,找出和人工給定的相似的url。把目標(biāo)格式分為case1,case2,case3,三種情況,對(duì)每一種情況分別進(jìn)行處理,生成網(wǎng)頁(yè)模板。