一種面向司法文本的搜索排序方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201910554551.5 | 申請日 | - |
公開(公告)號 | CN110347812B | 公開(公告)日 | 2021-09-10 |
申請公布號 | CN110347812B | 申請公布日 | 2021-09-10 |
分類號 | G06F16/332;G06F16/338;G06F40/284;G06N3/04 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 王開紅;陳濤;張?jiān)圃?丁鍇;李建元 | 申請(專利權(quán))人 | 銀江技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 浙江千克知識產(chǎn)權(quán)代理有限公司 | 代理人 | 趙芳;張瑜 |
地址 | 310012 浙江省杭州市益樂路223號1幢1層 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種面向司法文本的搜索排序方法及系統(tǒng),其中該方法包括(1)數(shù)據(jù)預(yù)處理:收集司法文本數(shù)據(jù)Doc和法律咨詢問題Query,并將收集的司法文本數(shù)據(jù)Doc進(jìn)行分詞處理,利用分詞后的數(shù)據(jù)預(yù)訓(xùn)練司法文本詞向量;(2)構(gòu)建相似度矩陣:采用預(yù)訓(xùn)練的詞向量構(gòu)建Query和Doc的相似度匹配矩陣M;(3)截取相關(guān)性文本片段:根據(jù)Query和Doc的匹配矩陣M提取局部相關(guān)性文本片段,多個(gè)局部相關(guān)性文本片段拼接在一起獲得相關(guān)性文本Ds,對應(yīng)的多個(gè)局部相關(guān)性文本片段的匹配矩陣拼接在一起獲得矩陣Ms;(4)構(gòu)建特征向量:計(jì)算Query和相關(guān)性文本Ds的全局相關(guān)性,構(gòu)建特征向量F;(5)計(jì)算匹配值并排序:將獲得的特征向量F輸入到神經(jīng)網(wǎng)絡(luò)模型中,得到Query和Doc的匹配score,根據(jù)匹配score大小進(jìn)行排序。 |
