一種基于LDA的中文問題映射方法
基本信息
申請?zhí)?/td> | CN201710662822.X | 申請日 | - |
公開(公告)號 | CN107423439A | 公開(公告)日 | 2017-12-01 |
申請公布號 | CN107423439A | 申請公布日 | 2017-12-01 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王春輝 | 申請(專利權(quán))人 | 逸途(北京)科技有限公司 |
代理機構(gòu) | 北京國坤專利代理事務所(普通合伙) | 代理人 | 逸途(北京)科技有限公司 |
地址 | 100015 北京市朝陽區(qū)酒仙橋路4號宏源大廈1904 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于LDA的中文問題映射方法,包括利用LDA主題模型對文檔庫進行分類,然后使用Softmax回歸模型對問題進行詞性分類,根據(jù)詞性分類的不同,賦予實詞的權(quán)值比虛詞的高,而實詞中不同詞性的權(quán)值也不相同,再使用基于依存文法的句法分析來找出句中的詞語的依存關系,而根據(jù)詞語在句子中的成分不同而賦予不同的權(quán)重,這樣問題中的每個詞的權(quán)值由兩部分乘積所得,最后根據(jù)貝葉斯規(guī)則,通過問題中詞語的加權(quán)分布和文檔中主題和詞項的分布建立起聯(lián)系。基于LDA的主題模型對文檔進行分類,同時參考問句中詞項的詞性和在句子中的成分來分配不同的權(quán)值,從而提高重要詞項在分類時的作用,而提高對中文問題映射的準確性。 |
