一種政策公文標(biāo)題相似度計(jì)算方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110950532.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114186058A | 公開(公告)日 | 2022-03-15 |
申請(qǐng)公布號(hào) | CN114186058A | 申請(qǐng)公布日 | 2022-03-15 |
分類號(hào) | G06F16/35(2019.01)I;G06F40/194(2020.01)I;G06F40/258(2020.01)I;G06F40/295(2020.01)I;G06F40/30(2020.01)I;G06K9/62(2022.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 熊子奇;夏志超;孔德智;薛彥凱;譚敏;灑科進(jìn) | 申請(qǐng)(專利權(quán))人 | 中電科大數(shù)據(jù)研究院有限公司 |
代理機(jī)構(gòu) | 貴州派騰知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 宋妍麗 |
地址 | 550000貴州省貴陽市貴陽國(guó)家高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)金陽科技產(chǎn)業(yè)園黎陽大廈 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種政策公文標(biāo)題相似度計(jì)算方法,包含以下步驟:數(shù)據(jù)清洗?標(biāo)題處理?業(yè)務(wù)關(guān)鍵詞生成?業(yè)務(wù)聚類?總體相似度計(jì)算?人工修正?triplet數(shù)據(jù)集構(gòu)造?模型訓(xùn)練。本發(fā)明基于關(guān)鍵詞的自動(dòng)聚類,極大減輕了深度學(xué)習(xí)所需的數(shù)據(jù)標(biāo)注的工作量;利用人工干預(yù)最終的聚類結(jié)果,提升了最終的相似度計(jì)算結(jié)果和系統(tǒng)魯棒性;采用預(yù)訓(xùn)練語言模型提升了系統(tǒng)計(jì)算的泛化能力和計(jì)算結(jié)果,通過triplet構(gòu)造三角損失,進(jìn)一步在減少標(biāo)注數(shù)據(jù)的同時(shí)提升了模型精度。 |
