網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)提取方法與系統(tǒng)
基本信息
申請?zhí)?/td> | CN200810036268.5 | 申請日 | - |
公開(公告)號 | CN101561802A | 公開(公告)日 | 2009-10-21 |
申請公布號 | CN101561802A | 申請公布日 | 2009-10-21 |
分類號 | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張世永;吳承榮;謝劍鋒 | 申請(專利權(quán))人 | 上海光華如新信息科技股份有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 200433上海市楊浦區(qū)國泰路127號3號樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)提取方法,其特征在于包括以下步驟:選擇訓(xùn)練網(wǎng)頁內(nèi)容集并提取目標(biāo)結(jié)構(gòu)化數(shù)據(jù);訓(xùn)練所述訓(xùn)練網(wǎng)頁內(nèi)容集獲得與所述目標(biāo)結(jié)構(gòu)化數(shù)據(jù)匹配的正則表達(dá)式;將所述正則表達(dá)式寫入配置模板;利用所述配置模板采集網(wǎng)頁;從所述采集網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)。依據(jù)本發(fā)明所提出的網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)提取方法與系統(tǒng),可以實(shí)現(xiàn)對靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁的結(jié)構(gòu)化數(shù)據(jù)提取,適用于獲取任何類型的網(wǎng)站信息內(nèi)容并提取結(jié)構(gòu)化數(shù)據(jù)。 |
