基于Bi-LSTM和CRF的文本序列標(biāo)注系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN201710828497.X 申請日 -
公開(公告)號 CN107622050B 公開(公告)日 2021-02-26
申請公布號 CN107622050B 申請公布日 2021-02-26
分類號 G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06F16/35(2019.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 金勇;吳兵;朱陽光;李力 申請(專利權(quán))人 武漢烽火普天信息技術(shù)有限公司
代理機構(gòu) 上海精晟知識產(chǎn)權(quán)代理有限公司 代理人 馮子玲
地址 430000湖北省武漢市東湖開發(fā)區(qū)關(guān)山二路附4號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于Bi?LSTM和CRF的文本序列標(biāo)注系統(tǒng)及方法,系統(tǒng)包括學(xué)習(xí)模塊和標(biāo)注模塊,標(biāo)注模塊包括分詞模塊、語料標(biāo)注模塊和調(diào)優(yōu)模塊,語料標(biāo)注模塊包括詞性標(biāo)注模塊和實體識別模塊;方法為將獲取的語料進行預(yù)處理,將預(yù)處理后的語料輸入預(yù)設(shè)的學(xué)習(xí)模型,調(diào)整學(xué)習(xí)模型的參數(shù)并保存,根據(jù)學(xué)習(xí)模型輸出的序列分類結(jié)果為語料分別添加對應(yīng)的預(yù)測標(biāo)簽,對于未知語料,進行分詞,利用調(diào)整的學(xué)習(xí)模塊對分詞后的未知語料進行初次標(biāo)注,將初次標(biāo)注的未知語料進行調(diào)優(yōu),對調(diào)優(yōu)后的語料進行最終標(biāo)注;本發(fā)明使用戶可以根據(jù)需求對詞庫進行調(diào)整,具有人機交互調(diào)整的功能,實現(xiàn)同一領(lǐng)域自動標(biāo)注,不同領(lǐng)域半自動標(biāo)注過程,提升效率,降低成本。??