一種基于LDA的中文問題映射方法

基本信息

申請?zhí)?/td> CN201710662822.X 申請日 -
公開(公告)號 CN107423439A 公開(公告)日 2017-12-01
申請公布號 CN107423439A 申請公布日 2017-12-01
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王春輝 申請(專利權(quán))人 逸途(北京)科技有限公司
代理機構(gòu) 北京國坤專利代理事務所(普通合伙) 代理人 逸途(北京)科技有限公司
地址 100015 北京市朝陽區(qū)酒仙橋路4號宏源大廈1904
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于LDA的中文問題映射方法,包括利用LDA主題模型對文檔庫進行分類,然后使用Softmax回歸模型對問題進行詞性分類,根據(jù)詞性分類的不同,賦予實詞的權(quán)值比虛詞的高,而實詞中不同詞性的權(quán)值也不相同,再使用基于依存文法的句法分析來找出句中的詞語的依存關系,而根據(jù)詞語在句子中的成分不同而賦予不同的權(quán)重,這樣問題中的每個詞的權(quán)值由兩部分乘積所得,最后根據(jù)貝葉斯規(guī)則,通過問題中詞語的加權(quán)分布和文檔中主題和詞項的分布建立起聯(lián)系。基于LDA的主題模型對文檔進行分類,同時參考問句中詞項的詞性和在句子中的成分來分配不同的權(quán)值,從而提高重要詞項在分類時的作用,而提高對中文問題映射的準確性。