一種計算字符串間相似度的方法及裝置

基本信息

申請?zhí)?/td> CN201611130125.1 申請日 -
公開(公告)號 CN106650803B 公開(公告)日 2019-06-18
申請公布號 CN106650803B 申請公布日 2019-06-18
分類號 G06K9/62(2006.01)I; G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 韋強申; 劉鵬 申請(專利權(quán))人 中國建設(shè)銀行股份有限公司北京中關(guān)村分行
代理機構(gòu) 北京品源專利代理有限公司 代理人 北京銳安科技有限公司
地址 100044 北京市海淀區(qū)西小口路66號中關(guān)村東升科技園北領(lǐng)地B-2號樓七層
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例公開了一種計算字符串間相似度的方法及裝置。該方法包括:獲取至少兩個字符串的核心詞匯的權(quán)重;獲取所述至少兩個字符串的最大公共序列,并根據(jù)所述最大公共序列的長度和詞匯確定所述最大公共序列的權(quán)重;根據(jù)預(yù)設(shè)常用詞匯的權(quán)重表獲取所述至少兩個字符串中的常用詞匯的權(quán)重;根據(jù)所述核心詞匯的權(quán)重、所述最大公共序列的權(quán)重和所述常用詞匯的權(quán)重獲取所述至少兩個字符串的相似度。本發(fā)明加入了句子結(jié)構(gòu)的分析,還加入了詞匯權(quán)重信息,作為字符串相似度計算的調(diào)和值,由于分詞工具的準(zhǔn)確率,分詞結(jié)果會產(chǎn)生一些誤差,句子結(jié)構(gòu)分析也會有一定的誤差,經(jīng)過詞頻權(quán)重調(diào)和后,計算結(jié)果更加準(zhǔn)確。