一種大規(guī)模相似新聞標(biāo)題快速歸一化方法
基本信息
申請?zhí)?/td> | CN201910521164.1 | 申請日 | - |
公開(公告)號 | CN110245275A | 公開(公告)日 | 2019-09-17 |
申請公布號 | CN110245275A | 申請公布日 | 2019-09-17 |
分類號 | G06F16/9032(2019.01)I; G06F16/951(2019.01)I; G06F16/9535(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鮑翊平; 曹揚(yáng); 王進(jìn); 何春輝; 張翀; 葛斌; 夏利鋒; 王紹麗 | 申請(專利權(quán))人 | 貴州華云創(chuàng)谷科技有限公司 |
代理機(jī)構(gòu) | 長沙市護(hù)航專利代理事務(wù)所(特殊普通合伙) | 代理人 | 中電科大數(shù)據(jù)研究院有限公司; 貴州華云創(chuàng)谷科技有限公司; 長沙軍民先進(jìn)技術(shù)研究有限公司 |
地址 | 550000 貴州省貴陽市貴陽國家高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)金陽科技產(chǎn)業(yè)園黎陽大廈 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種大規(guī)模相似新聞標(biāo)題快速歸一化方法,所述方法包括:S1、預(yù)處理新聞標(biāo)題數(shù)據(jù);S2、將與任意給定新聞標(biāo)題相關(guān)的新聞標(biāo)題數(shù)據(jù)進(jìn)行排序;S3、計(jì)算相關(guān)新聞標(biāo)題與該新聞標(biāo)題之間相似度并排序;S4、比較相關(guān)新聞標(biāo)題中最大相似度值與設(shè)定相似度閾值并判斷索引中是否存在相似新聞標(biāo)題,若存在則將最大相似度新聞標(biāo)題MD5值作為該新聞標(biāo)題歸一化序列碼,若不存在則進(jìn)入步驟S5;S5、計(jì)算該新聞標(biāo)題MD5值,作為其歸一化序列碼與其內(nèi)容存入索引中;S6、重復(fù)步驟S2和S5,完成所有新聞標(biāo)題的歸一化映射。本發(fā)明可以快速找出相關(guān)的新聞標(biāo)題并做出相似性判定,然后將相似新聞標(biāo)題映射成唯一的歸一化序列碼,實(shí)現(xiàn)了大規(guī)模相似新聞標(biāo)題的快速歸一化。 |
