一種抽取新聞網(wǎng)頁內(nèi)容的方法、裝置及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN201810863031.8 | 申請日 | - |
公開(公告)號 | CN109271598B | 公開(公告)日 | 2021-03-12 |
申請公布號 | CN109271598B | 申請公布日 | 2021-03-12 |
分類號 | G06F16/958(2019.01)I;G06F16/953(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陳賀 | 申請(專利權(quán))人 | 數(shù)地工場(南京)科技有限公司 |
代理機構(gòu) | 廣州容大知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 劉新年 |
地址 | 511458廣東省廣州市南沙區(qū)環(huán)市大道中27號1920房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開一種抽取新聞網(wǎng)頁內(nèi)容的方法、裝置及存儲介質(zhì),涉及新聞網(wǎng)頁內(nèi)容抽取技術(shù)領(lǐng)域,包括:獲取網(wǎng)頁HTML代碼、網(wǎng)頁HTML線性重構(gòu)、HTML噪聲標簽去除、數(shù)據(jù)集過濾劃分、吸收偽噪聲段落、生成正文段落;其中,網(wǎng)頁HTML線性重構(gòu)將相互嵌套的呈樹狀div標簽進行線性化,處理線性結(jié)構(gòu)方便定位當(dāng)個div標簽,消除嵌套標簽對后續(xù)步驟影響;HTML噪聲標簽去除將減少噪聲文字對段落聚類的影響;數(shù)據(jù)集過濾劃分進一步降低噪聲對正文段落的影響;吸收偽噪聲段落提高了正文段落的召回率。該方法克服了特定網(wǎng)站特定抓取的缺陷,增強了抽取新聞網(wǎng)頁內(nèi)容的通用性;對比已有技術(shù),能夠準確高效地抽取新聞內(nèi)容,具有良好的效果。?? |
