一種相似性度量的方法以及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201410244544.2 申請(qǐng)日 -
公開(公告)號(hào) CN104102691B 公開(公告)日 2017-11-07
申請(qǐng)公布號(hào) CN104102691B 申請(qǐng)公布日 2017-11-07
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 朱寶 申請(qǐng)(專利權(quán))人 百度移信網(wǎng)絡(luò)技術(shù)(北京)有限公司
代理機(jī)構(gòu) 北京志霖律師事務(wù)所 代理人 潘士霖
地址 100085 北京市海淀區(qū)農(nóng)大南路1號(hào)院4號(hào)樓4層401、402、403、405、407、408單元
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種相似性度量的方法以及系統(tǒng)。所述相似性度量方法包括:數(shù)據(jù)獲取步驟,獲取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a對(duì)集合b中的元素item_b無(wú)差別的相似性操作次數(shù)sim(item_a,item_b);相似度計(jì)算步驟,執(zhí)行基于下式的集合b內(nèi)部元素item_bi與元素item_bj的相似性值sim’(Item_bi,Item_bj)的計(jì)算, <mfenced open='''' close=''''> <mtable> <mtr> <mtd> <msup> <mi>sim</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> </mtd> </mtr> <mtr> <mtd> <mi>k</mi> <mo>*</mo> <munder> <mi>&Sigma;</mi> <mi>m</mi> </munder> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mi>&Sigma;</mi> <mi>n</mi> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mi>&Sigma;</mi> <mi>n</mi> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mrow> <munder> <mi>&Sigma;</mi> <mi>n</mi> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mi>&Sigma;</mi> <mi>n</mi> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>其中,i,j,m,n表示集合中元素的標(biāo)號(hào),k是歸一化因子。