基于自動(dòng)分詞的新聞文本處理方法

基本信息

申請(qǐng)?zhí)?/td> CN202110939825.X 申請(qǐng)日 -
公開(公告)號(hào) CN113392189B 公開(公告)日 2022-02-08
申請(qǐng)公布號(hào) CN113392189B 申請(qǐng)公布日 2022-02-08
分類號(hào) G06F16/33(2019.01)I;G06F16/36(2019.01)I;G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 黃振華;李惠惠 申請(qǐng)(專利權(quán))人 東華理工大學(xué)南昌校區(qū)
代理機(jī)構(gòu) 南昌明佳知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 蘇彥江
地址 330000江西省南昌市經(jīng)濟(jì)技術(shù)開發(fā)區(qū)廣蘭大道418號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于自動(dòng)分詞的新聞文本處理方法。該方法首先生成詞組數(shù)據(jù)庫。接著提取時(shí)事文本、領(lǐng)域標(biāo)簽、新聞文本,對(duì)比時(shí)事文本與基礎(chǔ)詞組,確定該時(shí)事文本的多個(gè)有源詞組以及無源詞組。然后檢索新聞文本中與有源詞組和無源詞組相同的待處理字符串,生成第一字符串和第二字符串以及中間文本。再對(duì)比中間文本與基礎(chǔ)詞組,確定第三字符串以及第四字符串,最后拼接第一、二、三、四字符串完成對(duì)新聞文本的分詞處理。本方法通過對(duì)新聞文本的分詞為文本語義識(shí)別提供技術(shù)基礎(chǔ)。也有利于挖掘新聞的價(jià)值,能夠更加精準(zhǔn)的定位搜索。