一種基于LDA的中文問題映射方法

基本信息

申請?zhí)?/td> CN201710662822.X 申請日 -
公開(公告)號 CN107423439B 公開(公告)日 2021-03-02
申請公布號 CN107423439B 申請公布日 2021-03-02
分類號 G06F16/35(2019.01)I;G06F16/332(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王春輝 申請(專利權(quán))人 識因智能科技(北京)有限公司
代理機構(gòu) 北京國坤專利代理事務(wù)所(普通合伙) 代理人 趙紅霞
地址 100043北京市石景山區(qū)八大處路49號院6號樓七層717號(集群注冊)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于LDA的中文問題映射方法,包括利用LDA主題模型對文檔庫進行分類,然后使用Softmax回歸模型對問題進行詞性分類,根據(jù)詞性分類的不同,賦予實詞的權(quán)值比虛詞的高,而實詞中不同詞性的權(quán)值也不相同,再使用基于依存文法的句法分析來找出句中的詞語的依存關(guān)系,而根據(jù)詞語在句子中的成分不同而賦予不同的權(quán)重,這樣問題中的每個詞的權(quán)值由兩部分乘積所得,最后根據(jù)貝葉斯規(guī)則,通過問題中詞語的加權(quán)分布和文檔中主題和詞項的分布建立起聯(lián)系。基于LDA的主題模型對文檔進行分類,同時參考問句中詞項的詞性和在句子中的成分來分配不同的權(quán)值,從而提高重要詞項在分類時的作用,而提高對中文問題映射的準確性。??