基于自動(dòng)分詞的新聞文本處理方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110939825.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113392189B | 公開(公告)日 | 2022-02-08 |
申請(qǐng)公布號(hào) | CN113392189B | 申請(qǐng)公布日 | 2022-02-08 |
分類號(hào) | G06F16/33(2019.01)I;G06F16/36(2019.01)I;G06F40/289(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 黃振華;李惠惠 | 申請(qǐng)(專利權(quán))人 | 東華理工大學(xué)南昌校區(qū) |
代理機(jī)構(gòu) | 南昌明佳知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 蘇彥江 |
地址 | 330000江西省南昌市經(jīng)濟(jì)技術(shù)開發(fā)區(qū)廣蘭大道418號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于自動(dòng)分詞的新聞文本處理方法。該方法首先生成詞組數(shù)據(jù)庫。接著提取時(shí)事文本、領(lǐng)域標(biāo)簽、新聞文本,對(duì)比時(shí)事文本與基礎(chǔ)詞組,確定該時(shí)事文本的多個(gè)有源詞組以及無源詞組。然后檢索新聞文本中與有源詞組和無源詞組相同的待處理字符串,生成第一字符串和第二字符串以及中間文本。再對(duì)比中間文本與基礎(chǔ)詞組,確定第三字符串以及第四字符串,最后拼接第一、二、三、四字符串完成對(duì)新聞文本的分詞處理。本方法通過對(duì)新聞文本的分詞為文本語義識(shí)別提供技術(shù)基礎(chǔ)。也有利于挖掘新聞的價(jià)值,能夠更加精準(zhǔn)的定位搜索。 |
