文本相似度、詞義相似度計(jì)算方法和系統(tǒng)及應(yīng)用系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN200710118224.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN101079026B | 公開(公告)日 | 2011-01-26 |
申請(qǐng)公布號(hào) | CN101079026B | 申請(qǐng)公布日 | 2011-01-26 |
分類號(hào) | G06F17/27(2006.01)I;G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 劉文印 | 申請(qǐng)(專利權(quán))人 | 廣東東華發(fā)思特軟件有限公司 |
代理機(jī)構(gòu) | 北京律誠(chéng)同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 梁揮;常大軍 |
地址 | 519080 廣東省珠海南方軟件園西苑D1棟202-204室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種文本相似度、詞義相似度計(jì)算方法和系統(tǒng)及應(yīng)用系統(tǒng)。該方法包括下列步驟:根據(jù)詞匯數(shù)據(jù)庫進(jìn)行初始化,計(jì)算得到所述詞匯數(shù)據(jù)庫中詞匯間的初始詞義相似度,并根據(jù)初始詞義相似度計(jì)算文本間的初始語義相似度;根據(jù)初始化得到的詞匯間的詞義相似度和文本間的初始語義相似度,交替迭代計(jì)算文本集中的各個(gè)文本間的語義相似度和詞匯間的詞義相似度直至收斂,根據(jù)迭代計(jì)算的收斂結(jié)果,以最終詞義相似度構(gòu)造所有詞匯間的最終詞義相似矩陣;根據(jù)所述最終詞義相似矩陣,將原始文本的文本詞頻向量變換為新的文本詞頻向量,計(jì)算出所述文本集中文本相似度。其能夠顯著提高現(xiàn)有的文本相關(guān)的,特別是有關(guān)短文本的信息檢索技術(shù)的性能。 |
