一種基于關(guān)鍵詞抽取和詞移距離的知識(shí)產(chǎn)權(quán)匹配技術(shù)

基本信息

申請(qǐng)?zhí)?/td> CN201911335380.3 申請(qǐng)日 -
公開(公告)號(hào) CN111027306A 公開(公告)日 2020-04-17
申請(qǐng)公布號(hào) CN111027306A 申請(qǐng)公布日 2020-04-17
分類號(hào) G06F40/194;G06F40/279;G06F16/33;G06F16/335;G06N20/00 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王家奎 申請(qǐng)(專利權(quán))人 園寶科技(武漢)有限公司
代理機(jī)構(gòu) 南京鼎傲知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 殷篩網(wǎng)
地址 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)湯遜湖北路33號(hào)華工科技園創(chuàng)新基地17棟B幢3層01號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于關(guān)鍵詞抽取和詞移距離的知識(shí)產(chǎn)權(quán)匹配技術(shù),包括專利文本中標(biāo)記部分文本、專利標(biāo)題和內(nèi)容的關(guān)鍵詞特征工程、LightGBM訓(xùn)練模型、通過(guò)關(guān)鍵詞LightGBM模型抽取關(guān)鍵詞和關(guān)鍵詞權(quán)重,用WMD計(jì)算兩個(gè)專利文本之間關(guān)鍵詞和權(quán)重結(jié)合在一起的距離值,基于專利標(biāo)題和內(nèi)容的匹配方法首先提取專利和標(biāo)題拼接成文本之后,用訓(xùn)練好的模型抽取關(guān)鍵詞并得到關(guān)鍵詞在文本中的權(quán)重,當(dāng)計(jì)算專利的文本相似度時(shí),將抽取的關(guān)鍵詞和權(quán)重和另一篇專利的關(guān)鍵詞和權(quán)重放在WMD(word mover’s distance)中計(jì)算兩篇文章的相似度,相似度以兩篇文章的距離值作為參考,距離值越近表示越相似,最后設(shè)定閾值將小于閾值的值排序,最后將排序的距離對(duì)應(yīng)的專利推薦給搜索用戶。