一種網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化提取的方法
基本信息
申請?zhí)?/td> | CN202010303525.8 | 申請日 | - |
公開(公告)號 | CN111523303A | 公開(公告)日 | 2020-08-11 |
申請公布號 | CN111523303A | 申請公布日 | 2020-08-11 |
分類號 | G06F40/216(2020.01)I | 分類 | - |
發(fā)明人 | 徐利東;遠(yuǎn)貴良 | 申請(專利權(quán))人 | 山東貝賽信息科技有限公司 |
代理機(jī)構(gòu) | 濟(jì)南瑞宸知識產(chǎn)權(quán)代理有限公司 | 代理人 | 山東貝賽信息科技有限公司 |
地址 | 250000山東省濟(jì)南市經(jīng)十路7000號漢峪金谷金融商務(wù)中心A4-(3)辦公樓34層3401室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了本發(fā)明一種網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化提取的方法,網(wǎng)頁數(shù)據(jù)結(jié)構(gòu)化提取方法:網(wǎng)頁源代碼獲取、解析頁面標(biāo)簽、提取時間信息、判斷標(biāo)題特征、提取信息、完成分析。本發(fā)明的優(yōu)點(diǎn):可以不基于規(guī)則提取,適用于大規(guī)模數(shù)據(jù)采集的業(yè)務(wù)場景;支持網(wǎng)頁的發(fā)布時間、標(biāo)題、正文內(nèi)容的提?。徊皇芫W(wǎng)頁排版、布局的影響。?? |
