一種基于詞頻和語義計(jì)算專利文獻(xiàn)相似度的智能檢索方法、裝置、電子設(shè)備及其存儲(chǔ)介質(zhì)

基本信息

申請?zhí)?/td> 2020112278901 申請日 -
公開(公告)號(hào) CN112257419A 公開(公告)日 2021-01-22
申請公布號(hào) CN112257419A 申請公布日 2021-01-22
分類號(hào) G06F40/216(2020.01)I; 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 汪敏;嚴(yán)妍;肖國泉;裴非;肖克;彭祖劍;邵羅樹;趙達(dá);石鑫 申請(專利權(quán))人 開普云信息科技股份有限公司
代理機(jī)構(gòu) - 代理人 -
地址 523000廣東省東莞市石龍鎮(zhèn)中山東東升路1號(hào)匯星商業(yè)中心5棟2單元1805室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于詞頻和語義計(jì)算專利文獻(xiàn)相似度的智能檢索方法、裝置、電子設(shè)備及其存儲(chǔ)介質(zhì),對專利數(shù)據(jù)庫中的所有文獻(xiàn)進(jìn)行詞袋統(tǒng)計(jì)和詞向量計(jì)算,得到對應(yīng)的詞袋數(shù)據(jù)和詞距離數(shù)據(jù);建立模型,輸入內(nèi)容或考題號(hào),在題庫數(shù)據(jù)中獲取待審專利的標(biāo)題、摘要、權(quán)利要求書、說明書進(jìn)行多種組合,并分別根據(jù)詞袋算法和語義算法進(jìn)行粗選和細(xì)選,針對選擇后數(shù)據(jù)進(jìn)行文本相似度分析,將分析結(jié)果融合排序得到綜合相似度,經(jīng)查重篩選,給出待查專利的可疑答案集合。本發(fā)明提升了檢索速度,采用兩輪篩選,第一輪粗選旨在快速縮小對比范圍,第二輪細(xì)選旨在兼顧提高準(zhǔn)確率;可以有效節(jié)省人力和時(shí)間,幫助專利審查員縮減相關(guān)專利審查范圍,提高審查效率。??