計(jì)算文本間相似度的方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN201210126862.X 申請(qǐng)日 -
公開(公告)號(hào) CN103377239B 公開(公告)日 2020-08-07
申請(qǐng)公布號(hào) CN103377239B 申請(qǐng)公布日 2020-08-07
分類號(hào) G06F40/30;G06F40/247;G06F16/35 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 高小平;宋國(guó)龍;田國(guó)剛 申請(qǐng)(專利權(quán))人 深圳市世紀(jì)光速信息技術(shù)有限公司
代理機(jī)構(gòu) 北京中博世達(dá)專利商標(biāo)代理有限公司 代理人 申健
地址 518057 廣東省深圳市南山區(qū)粵海街道科技中一路騰訊大廈16層
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例公開了一種計(jì)算文本間相似度的方法和裝置,涉及計(jì)算機(jī)文本信息處理領(lǐng)域,能夠提高文本間語義相似度計(jì)算的準(zhǔn)確性。本發(fā)明實(shí)施例的計(jì)算文本間相似度的方法,包括:根據(jù)歸一化模板對(duì)待分析的第一文本和第二文本進(jìn)行歸一化處理,以使意義相同的詞語或詞組統(tǒng)一為同一個(gè)詞語或詞組;查詢歸一化后的所述第一文本和第二文本位于同一個(gè)近義詞聚類中的近義詞,并獲取所述近義詞的語義相似度;獲取所述第一文本和第二文本中各個(gè)詞語或詞組的權(quán)重;根據(jù)所述近義詞的語義相似度、所述權(quán)重和預(yù)設(shè)的語義相似度模型,計(jì)算所述第一文本和第二文本的相似度。