一種基于LDA的中文問題映射方法

基本信息

申請?zhí)?/td> CN201710662822.X 申請日 -
公開(公告)號 CN107423439A 公開(公告)日 2017-12-01
申請公布號 CN107423439A 申請公布日 2017-12-01
分類號 G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王春輝 申請(專利權(quán))人 逸途(北京)科技有限公司
代理機(jī)構(gòu) 北京國坤專利代理事務(wù)所(普通合伙) 代理人 逸途(北京)科技有限公司
地址 100015 北京市朝陽區(qū)酒仙橋路4號宏源大廈1904
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于LDA的中文問題映射方法,包括利用LDA主題模型對文檔庫進(jìn)行分類,然后使用Softmax回歸模型對問題進(jìn)行詞性分類,根據(jù)詞性分類的不同,賦予實(shí)詞的權(quán)值比虛詞的高,而實(shí)詞中不同詞性的權(quán)值也不相同,再使用基于依存文法的句法分析來找出句中的詞語的依存關(guān)系,而根據(jù)詞語在句子中的成分不同而賦予不同的權(quán)重,這樣問題中的每個(gè)詞的權(quán)值由兩部分乘積所得,最后根據(jù)貝葉斯規(guī)則,通過問題中詞語的加權(quán)分布和文檔中主題和詞項(xiàng)的分布建立起聯(lián)系?;贚DA的主題模型對文檔進(jìn)行分類,同時(shí)參考問句中詞項(xiàng)的詞性和在句子中的成分來分配不同的權(quán)值,從而提高重要詞項(xiàng)在分類時(shí)的作用,而提高對中文問題映射的準(zhǔn)確性。