基于多頁(yè)面比較的網(wǎng)頁(yè)元數(shù)據(jù)自動(dòng)抽取方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN200910054701.2 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN101957816B | 公開(kāi)(公告)日 | 2013-03-20 |
申請(qǐng)公布號(hào) | CN101957816B | 申請(qǐng)公布日 | 2013-03-20 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 甘雨;李沛剡 | 申請(qǐng)(專利權(quán))人 | 上海華燕房盟網(wǎng)絡(luò)科技股份有限公司 |
代理機(jī)構(gòu) | 上海東創(chuàng)專利代理事務(wù)所(普通合伙) | 代理人 | 上海華燕置業(yè)發(fā)展有限公司;上海華燕房盟網(wǎng)絡(luò)科技股份有限公司 |
地址 | 200052 上海市延安西路1326號(hào)生物大廈16樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于多頁(yè)面比較的網(wǎng)頁(yè)元數(shù)據(jù)自動(dòng)抽取方法和系統(tǒng),屬于互聯(lián)網(wǎng)信息處理領(lǐng)域。互聯(lián)網(wǎng)的頁(yè)面都是用松散的HTML來(lái)組織的,而HTML語(yǔ)法驗(yàn)證不嚴(yán)格,語(yǔ)義和表現(xiàn)格式混合在一起,給網(wǎng)頁(yè)數(shù)據(jù)抽取帶來(lái)了很大的困難。本發(fā)明則能很好的解決這個(gè)問(wèn)題。本發(fā)明基于一個(gè)假設(shè)“動(dòng)態(tài)頁(yè)面是由同一個(gè)模板填入不同的數(shù)據(jù)生成的”,因而可以通過(guò)比較多個(gè)相似的頁(yè)面,進(jìn)行規(guī)約推導(dǎo),從而得到生成這組頁(yè)面的模板。本發(fā)明包括以下部分:(1)網(wǎng)頁(yè)采集器:從預(yù)設(shè)的網(wǎng)站抓取網(wǎng)頁(yè);(2)網(wǎng)頁(yè)分類器:將相似的頁(yè)面歸為一組;(3)網(wǎng)頁(yè)元數(shù)據(jù)分析模塊:推導(dǎo)模板、抽取元數(shù)據(jù);(4)網(wǎng)頁(yè)元數(shù)據(jù)存儲(chǔ):存儲(chǔ)和索引元數(shù)據(jù);(5)元數(shù)據(jù)搜索引擎:檢索和顯示元數(shù)據(jù)。 |
