一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法

基本信息

申請?zhí)?/td> CN201811604934.0 申請日 -
公開(公告)號 CN109684642A 公開(公告)日 2019-04-26
申請公布號 CN109684642A 申請公布日 2019-04-26
分類號 G06F17/27(2006.01)I; G06F16/34(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 陳瑋; 劉德彬; 孫世通; 嚴(yán)開; 吳濤 申請(專利權(quán))人 重慶電信系統(tǒng)集成有限公司
代理機(jī)構(gòu) 重慶智慧之源知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 重慶譽(yù)存大數(shù)據(jù)科技有限公司;重慶電信系統(tǒng)集成有限公司
地址 401121 重慶市渝北區(qū)黃山大道中段53號附2號麒麟C座9層
法律狀態(tài) -

摘要

摘要 一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法,包括以下步驟:S1:運(yùn)用Readability包對網(wǎng)頁類的文本數(shù)據(jù)的“body”標(biāo)簽內(nèi)html格式的正文數(shù)據(jù)進(jìn)行抽??;S2:獲取所述文本語料的文本長度,排除不合格的文本語料;S3:判斷所述文本語料的句子數(shù)量是否大于閾值;S4:判斷能否獲取段落小標(biāo)題語段;S5:定義正則匹配關(guān)鍵詞,剔除匹配到正則匹配關(guān)鍵詞的文本得到過濾后的文本語料S6:對語段進(jìn)行合規(guī)性判定;S7:訓(xùn)練Word2Vec模型,將所述文本語料拆分成句子,再將句子拆分成詞做向量化操作并用EMD求句子相似度,再運(yùn)用TextRank算法基于句子相似度給予權(quán)重并認(rèn)定權(quán)重最高的句子為文本摘要句子。本發(fā)明可以對于長篇博客、新聞類的文章可以獲取較核心的句子從而快速了解主旨。