一種網(wǎng)頁數(shù)據(jù)結構化提取的方法

基本信息

申請?zhí)?/td> CN202010303525.8 申請日 -
公開(公告)號 CN111523303A 公開(公告)日 2020-08-11
申請公布號 CN111523303A 申請公布日 2020-08-11
分類號 G06F40/216(2020.01)I 分類 -
發(fā)明人 徐利東;遠貴良 申請(專利權)人 山東貝賽信息科技有限公司
代理機構 濟南瑞宸知識產權代理有限公司 代理人 山東貝賽信息科技有限公司
地址 250000山東省濟南市經十路7000號漢峪金谷金融商務中心A4-(3)辦公樓34層3401室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了本發(fā)明一種網(wǎng)頁數(shù)據(jù)結構化提取的方法,網(wǎng)頁數(shù)據(jù)結構化提取方法:網(wǎng)頁源代碼獲取、解析頁面標簽、提取時間信息、判斷標題特征、提取信息、完成分析。本發(fā)明的優(yōu)點:可以不基于規(guī)則提取,適用于大規(guī)模數(shù)據(jù)采集的業(yè)務場景;支持網(wǎng)頁的發(fā)布時間、標題、正文內容的提??;不受網(wǎng)頁排版、布局的影響。??