基于多頁面比較的網(wǎng)頁元數(shù)據(jù)自動抽取方法和系統(tǒng)
基本信息
申請?zhí)?/td> | CN200910054701.2 | 申請日 | - |
公開(公告)號 | CN101957816A | 公開(公告)日 | 2011-01-26 |
申請公布號 | CN101957816A | 申請公布日 | 2011-01-26 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 甘雨;李沛剡 | 申請(專利權(quán))人 | 上海華燕房盟網(wǎng)絡科技股份有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 200434 上海市吉浦路375弄34號103室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于多頁面比較的網(wǎng)頁元數(shù)據(jù)自動抽取方法和系統(tǒng),屬于互聯(lián)網(wǎng)信息處理領(lǐng)域?;ヂ?lián)網(wǎng)的頁面都是用松散的HTML來組織的,而HTML語法驗證不嚴格,語義和表現(xiàn)格式混合在一起,給網(wǎng)頁數(shù)據(jù)抽取帶來了很大的困難。本發(fā)明則能很好的解決這個問題。本發(fā)明基于一個假設(shè)“動態(tài)頁面是由同一個模板填入不同的數(shù)據(jù)生成的”,因而可以通過比較多個相似的頁面,進行規(guī)約推導,從而得到生成這組頁面的模板。本發(fā)明包括以下部分:(1)網(wǎng)頁采集器:從預設(shè)的網(wǎng)站抓取網(wǎng)頁;(2)網(wǎng)頁分類器:將相似的頁面歸為一組;(3)網(wǎng)頁元數(shù)據(jù)分析模塊:推導模板、抽取元數(shù)據(jù);(4)網(wǎng)頁元數(shù)據(jù)存儲:存儲和索引元數(shù)據(jù);(5)元數(shù)據(jù)搜索引擎:檢索和顯示元數(shù)據(jù)。 |
