一種計算字符串間相似度的方法及裝置
基本信息
申請?zhí)?/td> | CN201611130125.1 | 申請日 | - |
公開(公告)號 | CN106650803B | 公開(公告)日 | 2019-06-18 |
申請公布號 | CN106650803B | 申請公布日 | 2019-06-18 |
分類號 | G06K9/62(2006.01)I; G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 韋強申; 劉鵬 | 申請(專利權(quán))人 | 中國建設(shè)銀行股份有限公司北京中關(guān)村分行 |
代理機構(gòu) | 北京品源專利代理有限公司 | 代理人 | 北京銳安科技有限公司 |
地址 | 100044 北京市海淀區(qū)西小口路66號中關(guān)村東升科技園北領(lǐng)地B-2號樓七層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實施例公開了一種計算字符串間相似度的方法及裝置。該方法包括:獲取至少兩個字符串的核心詞匯的權(quán)重;獲取所述至少兩個字符串的最大公共序列,并根據(jù)所述最大公共序列的長度和詞匯確定所述最大公共序列的權(quán)重;根據(jù)預(yù)設(shè)常用詞匯的權(quán)重表獲取所述至少兩個字符串中的常用詞匯的權(quán)重;根據(jù)所述核心詞匯的權(quán)重、所述最大公共序列的權(quán)重和所述常用詞匯的權(quán)重獲取所述至少兩個字符串的相似度。本發(fā)明加入了句子結(jié)構(gòu)的分析,還加入了詞匯權(quán)重信息,作為字符串相似度計算的調(diào)和值,由于分詞工具的準(zhǔn)確率,分詞結(jié)果會產(chǎn)生一些誤差,句子結(jié)構(gòu)分析也會有一定的誤差,經(jīng)過詞頻權(quán)重調(diào)和后,計算結(jié)果更加準(zhǔn)確。 |
