一種抽取新聞網(wǎng)頁內(nèi)容的方法、裝置及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201810863031.8 申請日 -
公開(公告)號 CN109271598A 公開(公告)日 2019-01-25
申請公布號 CN109271598A 申請公布日 2019-01-25
分類號 G06F16/958;G06F16/953 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陳賀 申請(專利權(quán))人 數(shù)地工場(南京)科技有限公司
代理機(jī)構(gòu) 廣州容大專利代理事務(wù)所(普通合伙) 代理人 數(shù)據(jù)地平線(廣州)科技有限公司
地址 511458 廣東省廣州市南沙區(qū)環(huán)市大道中27號1920房
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種抽取新聞網(wǎng)頁內(nèi)容的方法、裝置及存儲介質(zhì),涉及新聞網(wǎng)頁內(nèi)容抽取技術(shù)領(lǐng)域,包括:獲取網(wǎng)頁HTML代碼、網(wǎng)頁HTML線性重構(gòu)、HTML噪聲標(biāo)簽去除、數(shù)據(jù)集過濾劃分、吸收偽噪聲段落、生成正文段落;其中,網(wǎng)頁HTML線性重構(gòu)將相互嵌套的呈樹狀div標(biāo)簽進(jìn)行線性化,處理線性結(jié)構(gòu)方便定位當(dāng)個(gè)div標(biāo)簽,消除嵌套標(biāo)簽對后續(xù)步驟影響;HTML噪聲標(biāo)簽去除將減少噪聲文字對段落聚類的影響;數(shù)據(jù)集過濾劃分進(jìn)一步降低噪聲對正文段落的影響;吸收偽噪聲段落提高了正文段落的召回率。該方法克服了特定網(wǎng)站特定抓取的缺陷,增強(qiáng)了抽取新聞網(wǎng)頁內(nèi)容的通用性;對比已有技術(shù),能夠準(zhǔn)確高效地抽取新聞內(nèi)容,具有良好的效果。