一種網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化提取的方法

基本信息

申請?zhí)?/td> CN202010303525.8 申請日 -
公開(公告)號 CN111523303A 公開(公告)日 2020-08-11
申請公布號 CN111523303A 申請公布日 2020-08-11
分類號 G06F40/216(2020.01)I 分類 -
發(fā)明人 徐利東;遠(yuǎn)貴良 申請(專利權(quán))人 山東貝賽信息科技有限公司
代理機(jī)構(gòu) 濟(jì)南瑞宸知識產(chǎn)權(quán)代理有限公司 代理人 山東貝賽信息科技有限公司
地址 250000山東省濟(jì)南市經(jīng)十路7000號漢峪金谷金融商務(wù)中心A4-(3)辦公樓34層3401室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了本發(fā)明一種網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化提取的方法,網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化提取方法:網(wǎng)頁源代碼獲取、解析頁面標(biāo)簽、提取時間信息、判斷標(biāo)題特征、提取信息、完成分析。本發(fā)明的優(yōu)點(diǎn):可以不基于規(guī)則提取,適用于大規(guī)模數(shù)據(jù)采集的業(yè)務(wù)場景;支持網(wǎng)頁的發(fā)布時間、標(biāo)題、正文內(nèi)容的提?。徊皇芫W(wǎng)頁排版、布局的影響。??