一種漢語新動詞識別方法
基本信息
申請?zhí)?/td> | CN201510846963.8 | 申請日 | - |
公開(公告)號 | CN106815189B | 公開(公告)日 | 2020-03-20 |
申請公布號 | CN106815189B | 申請公布日 | 2020-03-20 |
分類號 | G06F40/284;G06F40/242 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王衛(wèi)明;符建輝 | 申請(專利權(quán))人 | 中科國力(鎮(zhèn)江)智能技術(shù)有限公司 |
代理機構(gòu) | 南京知識律師事務(wù)所 | 代理人 | 中科國力(鎮(zhèn)江)智能技術(shù)有限公司;鎮(zhèn)江諾尼基智能技術(shù)有限公司 |
地址 | 212009 江蘇省鎮(zhèn)江市高新技術(shù)產(chǎn)業(yè)開發(fā)園區(qū)經(jīng)十二路668號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明一種漢語新動詞識別方法,包括對原始訓(xùn)練語料庫CNCorpus進行分詞,形成分詞語料庫TCNCorpus;識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb;驗證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult;輸出新動詞集合VerbResult.本發(fā)明提出了一種利用漢語種子詞典中的詞語的信息,對從漢語語料中獲得新動詞進行識別。在經(jīng)過160GB的純文本語料的測試驗證后,本發(fā)明的系統(tǒng)獲得了41012個新的漢語動詞。經(jīng)過準(zhǔn)確性分析,結(jié)果顯示96.9%的新動詞為正確的漢語動詞。 |
