一種基于關(guān)鍵詞匹配的實(shí)體抽取方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202111470754.X | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN114154495A | 公開(kāi)(公告)日 | 2022-03-08 |
申請(qǐng)公布號(hào) | CN114154495A | 申請(qǐng)公布日 | 2022-03-08 |
分類號(hào) | G06F40/284(2020.01)I;G06F40/295(2020.01)I;G06F40/247(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王善和;劉昊;李森 | 申請(qǐng)(專利權(quán))人 | 海南港航控股有限公司 |
代理機(jī)構(gòu) | 武漢華之喻知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 廖盈春;曹葆青 |
地址 | 570311海南省??谑袨I海大道96號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于關(guān)鍵詞匹配的實(shí)體抽取方法及系統(tǒng),用于中文文本的實(shí)體抽取,其中,實(shí)體抽取方法包括:預(yù)處理步驟,結(jié)構(gòu)化文本抽取步驟,非結(jié)構(gòu)化文本抽取步驟和合并步驟;本發(fā)明根據(jù)設(shè)定的主題,不斷從互聯(lián)網(wǎng)獲取初始關(guān)鍵詞的近義詞并加入關(guān)鍵詞庫(kù);從結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本中抽取關(guān)鍵詞庫(kù)中關(guān)鍵詞的近義詞,并加入關(guān)鍵詞庫(kù);本發(fā)明采用不同的實(shí)體抽取方法從結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本抽取出實(shí)體,并統(tǒng)一采用鍵值對(duì)的表示方式,得到該主題的最終實(shí)體集;本發(fā)明關(guān)鍵詞庫(kù)中的近義詞較為豐富,能顯著提高實(shí)體抽取的效果,減少漏抽取的情況。 |
