一種抽取新聞網(wǎng)頁內(nèi)容的方法、裝置及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN201810863031.8 | 申請日 | - |
公開(公告)號 | CN109271598A | 公開(公告)日 | 2019-01-25 |
申請公布號 | CN109271598A | 申請公布日 | 2019-01-25 |
分類號 | G06F16/958;G06F16/953 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 陳賀 | 申請(專利權(quán))人 | 數(shù)地工場(南京)科技有限公司 |
代理機(jī)構(gòu) | 廣州容大專利代理事務(wù)所(普通合伙) | 代理人 | 數(shù)據(jù)地平線(廣州)科技有限公司 |
地址 | 511458 廣東省廣州市南沙區(qū)環(huán)市大道中27號1920房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種抽取新聞網(wǎng)頁內(nèi)容的方法、裝置及存儲介質(zhì),涉及新聞網(wǎng)頁內(nèi)容抽取技術(shù)領(lǐng)域,包括:獲取網(wǎng)頁HTML代碼、網(wǎng)頁HTML線性重構(gòu)、HTML噪聲標(biāo)簽去除、數(shù)據(jù)集過濾劃分、吸收偽噪聲段落、生成正文段落;其中,網(wǎng)頁HTML線性重構(gòu)將相互嵌套的呈樹狀div標(biāo)簽進(jìn)行線性化,處理線性結(jié)構(gòu)方便定位當(dāng)個(gè)div標(biāo)簽,消除嵌套標(biāo)簽對后續(xù)步驟影響;HTML噪聲標(biāo)簽去除將減少噪聲文字對段落聚類的影響;數(shù)據(jù)集過濾劃分進(jìn)一步降低噪聲對正文段落的影響;吸收偽噪聲段落提高了正文段落的召回率。該方法克服了特定網(wǎng)站特定抓取的缺陷,增強(qiáng)了抽取新聞網(wǎng)頁內(nèi)容的通用性;對比已有技術(shù),能夠準(zhǔn)確高效地抽取新聞內(nèi)容,具有良好的效果。 |
