新聞網(wǎng)頁(yè)要素自動(dòng)提取方法
基本信息
申請(qǐng)?zhí)?/td> | CN201210232831.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN102750390A | 公開(公告)日 | 2012-10-24 |
申請(qǐng)公布號(hào) | CN102750390A | 申請(qǐng)公布日 | 2012-10-24 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張長(zhǎng)水;宋成儒;翁時(shí)鋒 | 申請(qǐng)(專利權(quán))人 | 寧波中青華云新媒體科技有限公司 |
代理機(jī)構(gòu) | 上海唯源專利代理有限公司 | 代理人 | 翁時(shí)鋒;寧波中青華云新媒體科技有限公司 |
地址 | 315192 浙江省寧波市鄞州區(qū)學(xué)士路298號(hào)科技中心514室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出一種新聞網(wǎng)頁(yè)要素自動(dòng)提取方法,包括以下步驟:(1)提取網(wǎng)頁(yè)源碼中網(wǎng)頁(yè)標(biāo)題與網(wǎng)頁(yè)元信息,并得到有關(guān)網(wǎng)頁(yè)內(nèi)容的關(guān)鍵詞詞典;(2)對(duì)網(wǎng)頁(yè)源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時(shí)間-消息來(lái)源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來(lái)源-發(fā)布時(shí)間-新聞?wù)牡捻樞?,以及利用所述關(guān)鍵詞詞典檢測(cè)并提取新聞標(biāo)題、發(fā)布時(shí)間、消息來(lái)源和新聞?wù)?。本發(fā)明不會(huì)對(duì)特定模板產(chǎn)生依賴,具有很強(qiáng)的通用性。 |
