一種網(wǎng)頁數(shù)據(jù)結構化提取的方法
基本信息
申請?zhí)?/td> | CN202010303525.8 | 申請日 | - |
公開(公告)號 | CN111523303A | 公開(公告)日 | 2020-08-11 |
申請公布號 | CN111523303A | 申請公布日 | 2020-08-11 |
分類號 | G06F40/216(2020.01)I | 分類 | - |
發(fā)明人 | 徐利東;遠貴良 | 申請(專利權)人 | 山東貝賽信息科技有限公司 |
代理機構 | 濟南瑞宸知識產權代理有限公司 | 代理人 | 山東貝賽信息科技有限公司 |
地址 | 250000山東省濟南市經十路7000號漢峪金谷金融商務中心A4-(3)辦公樓34層3401室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了本發(fā)明一種網(wǎng)頁數(shù)據(jù)結構化提取的方法,網(wǎng)頁數(shù)據(jù)結構化提取方法:網(wǎng)頁源代碼獲取、解析頁面標簽、提取時間信息、判斷標題特征、提取信息、完成分析。本發(fā)明的優(yōu)點:可以不基于規(guī)則提取,適用于大規(guī)模數(shù)據(jù)采集的業(yè)務場景;支持網(wǎng)頁的發(fā)布時間、標題、正文內容的提??;不受網(wǎng)頁排版、布局的影響。?? |
