一種基于關(guān)鍵詞匹配的實(shí)體抽取方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202111470754.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114154495A 公開(kāi)(公告)日 2022-03-08
申請(qǐng)公布號(hào) CN114154495A 申請(qǐng)公布日 2022-03-08
分類號(hào) G06F40/284(2020.01)I;G06F40/295(2020.01)I;G06F40/247(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王善和;劉昊;李森 申請(qǐng)(專利權(quán))人 海南港航控股有限公司
代理機(jī)構(gòu) 武漢華之喻知識(shí)產(chǎn)權(quán)代理有限公司 代理人 廖盈春;曹葆青
地址 570311海南省??谑袨I海大道96號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于關(guān)鍵詞匹配的實(shí)體抽取方法及系統(tǒng),用于中文文本的實(shí)體抽取,其中,實(shí)體抽取方法包括:預(yù)處理步驟,結(jié)構(gòu)化文本抽取步驟,非結(jié)構(gòu)化文本抽取步驟和合并步驟;本發(fā)明根據(jù)設(shè)定的主題,不斷從互聯(lián)網(wǎng)獲取初始關(guān)鍵詞的近義詞并加入關(guān)鍵詞庫(kù);從結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本中抽取關(guān)鍵詞庫(kù)中關(guān)鍵詞的近義詞,并加入關(guān)鍵詞庫(kù);本發(fā)明采用不同的實(shí)體抽取方法從結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本抽取出實(shí)體,并統(tǒng)一采用鍵值對(duì)的表示方式,得到該主題的最終實(shí)體集;本發(fā)明關(guān)鍵詞庫(kù)中的近義詞較為豐富,能顯著提高實(shí)體抽取的效果,減少漏抽取的情況。