文本相似度、詞義相似度計(jì)算方法和系統(tǒng)及應(yīng)用系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN200710118224.2 申請(qǐng)日 -
公開(公告)號(hào) CN101079026B 公開(公告)日 2011-01-26
申請(qǐng)公布號(hào) CN101079026B 申請(qǐng)公布日 2011-01-26
分類號(hào) G06F17/27(2006.01)I;G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 劉文印 申請(qǐng)(專利權(quán))人 廣東東華發(fā)思特軟件有限公司
代理機(jī)構(gòu) 北京律誠(chéng)同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 梁揮;常大軍
地址 519080 廣東省珠海南方軟件園西苑D1棟202-204室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文本相似度、詞義相似度計(jì)算方法和系統(tǒng)及應(yīng)用系統(tǒng)。該方法包括下列步驟:根據(jù)詞匯數(shù)據(jù)庫進(jìn)行初始化,計(jì)算得到所述詞匯數(shù)據(jù)庫中詞匯間的初始詞義相似度,并根據(jù)初始詞義相似度計(jì)算文本間的初始語義相似度;根據(jù)初始化得到的詞匯間的詞義相似度和文本間的初始語義相似度,交替迭代計(jì)算文本集中的各個(gè)文本間的語義相似度和詞匯間的詞義相似度直至收斂,根據(jù)迭代計(jì)算的收斂結(jié)果,以最終詞義相似度構(gòu)造所有詞匯間的最終詞義相似矩陣;根據(jù)所述最終詞義相似矩陣,將原始文本的文本詞頻向量變換為新的文本詞頻向量,計(jì)算出所述文本集中文本相似度。其能夠顯著提高現(xiàn)有的文本相關(guān)的,特別是有關(guān)短文本的信息檢索技術(shù)的性能。