一種基于深度學習的長文本檢索系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN202011435229.X 申請日 -
公開(公告)號 CN112632216B 公開(公告)日 2021-07-30
申請公布號 CN112632216B 申請公布日 2021-07-30
分類號 G06F16/33(2019.01)I;G06F16/903(2019.01)I;G06F40/284(2020.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李杰坷;楊敏;李成明;賀倩明 申請(專利權)人 深圳得理科技有限公司
代理機構 北京市誠輝律師事務所 代理人 范盈
地址 518000廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┮环N基于深度學習的長文本檢索系統(tǒng)及方法,包括交互特征提取模塊,用于對長文本文檔進行分段,將得到的文本片段與用戶輸入的搜索請求數(shù)據(jù)進行拼接,并輸入至基本特征提取器中,提取文本片段交互特征;交互特征聚合模塊,用于對文本片段交互特征進行聚合,得到聚合文本片段交互特征;輸出模塊,用于將聚合文本片段交互特征輸入至匹配得分計算器中,計算搜索請求數(shù)據(jù)和長文本文檔的匹配得分。本申請通過加入基于匹配字符的特殊掩膜機制,使得檢索系統(tǒng)能對分散到長文本中的問題的關鍵點進行更精準地匹配;并通過先對長文本進行分段,再使用循環(huán)神經網(wǎng)絡和注意力機制進行聚合的結構,降低隨著文本長度增加所帶來的檢索系統(tǒng)計算時間的增長。