一種基于關(guān)鍵詞抽取和詞移距離的知識產(chǎn)權(quán)匹配技術(shù)

基本信息

申請?zhí)?/td> CN201911335380.3 申請日 -
公開(公告)號 CN111027306A 公開(公告)日 2020-04-17
申請公布號 CN111027306A 申請公布日 2020-04-17
分類號 G06F40/194;G06F40/279;G06F16/33;G06F16/335;G06N20/00 分類 計算;推算;計數(shù);
發(fā)明人 王家奎 申請(專利權(quán))人 園寶科技(武漢)有限公司
代理機構(gòu) 南京鼎傲知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 殷篩網(wǎng)
地址 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)湯遜湖北路33號華工科技園創(chuàng)新基地17棟B幢3層01號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于關(guān)鍵詞抽取和詞移距離的知識產(chǎn)權(quán)匹配技術(shù),包括專利文本中標(biāo)記部分文本、專利標(biāo)題和內(nèi)容的關(guān)鍵詞特征工程、LightGBM訓(xùn)練模型、通過關(guān)鍵詞LightGBM模型抽取關(guān)鍵詞和關(guān)鍵詞權(quán)重,用WMD計算兩個專利文本之間關(guān)鍵詞和權(quán)重結(jié)合在一起的距離值,基于專利標(biāo)題和內(nèi)容的匹配方法首先提取專利和標(biāo)題拼接成文本之后,用訓(xùn)練好的模型抽取關(guān)鍵詞并得到關(guān)鍵詞在文本中的權(quán)重,當(dāng)計算專利的文本相似度時,將抽取的關(guān)鍵詞和權(quán)重和另一篇專利的關(guān)鍵詞和權(quán)重放在WMD(word mover’s distance)中計算兩篇文章的相似度,相似度以兩篇文章的距離值作為參考,距離值越近表示越相似,最后設(shè)定閾值將小于閾值的值排序,最后將排序的距離對應(yīng)的專利推薦給搜索用戶。