一種基于深度學習的長文本檢索系統(tǒng)及方法
基本信息
申請?zhí)?/td> | CN202011435229.X | 申請日 | - |
公開(公告)號 | CN112632216B | 公開(公告)日 | 2021-07-30 |
申請公布號 | CN112632216B | 申請公布日 | 2021-07-30 |
分類號 | G06F16/33(2019.01)I;G06F16/903(2019.01)I;G06F40/284(2020.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李杰坷;楊敏;李成明;賀倩明 | 申請(專利權)人 | 深圳得理科技有限公司 |
代理機構 | 北京市誠輝律師事務所 | 代理人 | 范盈 |
地址 | 518000廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┮环N基于深度學習的長文本檢索系統(tǒng)及方法,包括交互特征提取模塊,用于對長文本文檔進行分段,將得到的文本片段與用戶輸入的搜索請求數(shù)據(jù)進行拼接,并輸入至基本特征提取器中,提取文本片段交互特征;交互特征聚合模塊,用于對文本片段交互特征進行聚合,得到聚合文本片段交互特征;輸出模塊,用于將聚合文本片段交互特征輸入至匹配得分計算器中,計算搜索請求數(shù)據(jù)和長文本文檔的匹配得分。本申請通過加入基于匹配字符的特殊掩膜機制,使得檢索系統(tǒng)能對分散到長文本中的問題的關鍵點進行更精準地匹配;并通過先對長文本進行分段,再使用循環(huán)神經網(wǎng)絡和注意力機制進行聚合的結構,降低隨著文本長度增加所帶來的檢索系統(tǒng)計算時間的增長。 |
