新聞網(wǎng)頁(yè)要素自動(dòng)提取方法

基本信息

申請(qǐng)?zhí)?/td> CN201210232831.2 申請(qǐng)日 -
公開(公告)號(hào) CN102750390B 公開(公告)日 2014-07-23
申請(qǐng)公布號(hào) CN102750390B 申請(qǐng)公布日 2014-07-23
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張長(zhǎng)水;宋成儒;翁時(shí)鋒 申請(qǐng)(專利權(quán))人 寧波中青華云新媒體科技有限公司
代理機(jī)構(gòu) 上海唯源專利代理有限公司 代理人 曾耀先
地址 315192 浙江省寧波市鄞州區(qū)學(xué)士路298號(hào)科技中心514室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種新聞網(wǎng)頁(yè)要素自動(dòng)提取方法,包括以下步驟:(1)提取網(wǎng)頁(yè)源碼中網(wǎng)頁(yè)標(biāo)題與網(wǎng)頁(yè)元信息,并得到有關(guān)網(wǎng)頁(yè)內(nèi)容的關(guān)鍵詞詞典;(2)對(duì)網(wǎng)頁(yè)源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時(shí)間-消息來(lái)源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來(lái)源-發(fā)布時(shí)間-新聞?wù)牡捻樞颍约袄盟鲫P(guān)鍵詞詞典檢測(cè)并提取新聞標(biāo)題、發(fā)布時(shí)間、消息來(lái)源和新聞?wù)?。本發(fā)明不會(huì)對(duì)特定模板產(chǎn)生依賴,具有很強(qiáng)的通用性。