基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法

基本信息

申請?zhí)?/td> CN201310046975.3 申請日 -
公開(公告)號 CN103092828B 公開(公告)日 2015-08-12
申請公布號 CN103092828B 申請公布日 2015-08-12
分類號 G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 吳國華;尤金朋;張禎;王玉娟;邵根富 申請(專利權(quán))人 杭州德協(xié)電子科技有限公司
代理機(jī)構(gòu) 浙江杭州金通專利事務(wù)所有限公司 代理人 周希良;徐關(guān)壽
地址 310018 浙江省杭州市江干區(qū)下沙高教園區(qū)2號大街
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法:一、輸入兩個文本并對這兩個文本進(jìn)行預(yù)處理,預(yù)處理的結(jié)果為詞匯的集合;二、計(jì)算所述兩個文本預(yù)處理結(jié)果的詞匯語義相似度,并根據(jù)計(jì)算結(jié)果分別構(gòu)建語義關(guān)系網(wǎng)絡(luò);三、分別計(jì)算語義關(guān)系網(wǎng)絡(luò)中每個節(jié)點(diǎn)的流介數(shù)值,獲得兩個文本的特征集合;四、根據(jù)兩個文本的特征集合構(gòu)建二分圖,并設(shè)置二分圖兩部分之間的路徑權(quán)值;五、利用二分圖最優(yōu)匹配法計(jì)算兩個文本之間的相似度。本發(fā)明基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,可用于數(shù)據(jù)挖掘和信息檢索技術(shù)領(lǐng)域,例如文本聚類、信息檢索等,其與現(xiàn)有的其他文本相似度計(jì)算方法相比,極大地提高了文本相似度計(jì)算的準(zhǔn)確程度。