一種新聞評(píng)論頁面的爬取方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN200910242055.2 申請(qǐng)日 -
公開(公告)號(hào) CN102087648B 公開(公告)日 2013-06-19
申請(qǐng)公布號(hào) CN102087648B 申請(qǐng)公布日 2013-06-19
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 嚴(yán)華梁;劉偉;楊建武;萬小軍;肖建國 申請(qǐng)(專利權(quán))人 北京方正電子政務(wù)信息科技有限公司
代理機(jī)構(gòu) 北京天悅專利代理事務(wù)所(普通合伙) 代理人 北京大學(xué);北大方正集團(tuán)有限公司;北京方正電子政務(wù)信息科技有限公司;北京北大方正電子有限公司
地址 100871 北京市海淀區(qū)頤和園路5號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種新聞評(píng)論頁面的爬取方法及系統(tǒng),屬于信息檢索和數(shù)據(jù)集成技術(shù)領(lǐng)域。該方法及系統(tǒng)首先從新聞網(wǎng)站起始頁面出發(fā),對(duì)頁面進(jìn)行廣度遍歷,在遍歷過程中獲取滿足深度限制的頁面信息;然后計(jì)算頁面的特征值,根據(jù)特征值和預(yù)設(shè)閾值之間的大小關(guān)系,從頁面中識(shí)別出新聞評(píng)論頁面;最后獲取新聞評(píng)論頁面的翻頁鏈接,并根據(jù)翻頁鏈接獲取其他新聞評(píng)論頁面。本發(fā)明所述方法及系統(tǒng),能夠從新聞網(wǎng)站的網(wǎng)頁中自動(dòng)爬取出新聞評(píng)論頁面,而且爬取的速度快,爬取的新聞評(píng)論頁面全面。