一種基于電力信息系統(tǒng)代碼文件的相似度檢測方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201910593863.7 | 申請日 | - |
公開(公告)號 | CN110471835B | 公開(公告)日 | 2022-07-19 |
申請公布號 | CN110471835B | 申請公布日 | 2022-07-19 |
分類號 | G06F11/36(2006.01)I;G06F40/194(2020.01)I;G06F40/284(2020.01)I;G06F40/30(2020.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 錢琳;俞俊;朱廣新;龐恒茂;任曉龍;胡鑫;許明杰;王琳;梅竹;陳海洋 | 申請(專利權(quán))人 | 國電南瑞科技股份有限公司 |
代理機(jī)構(gòu) | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) | 代理人 | - |
地址 | 211106江蘇省南京市江寧區(qū)誠信大道19號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于電力信息系統(tǒng)代碼文件的相似度檢測方法及系統(tǒng),包括:獲取需要判別相似度的第一代碼文件和第二代碼文件,預(yù)處理后分別得到第一文本和第二文本;根據(jù)單詞的TF?IDF值得到所述文本語義詞向量,從所述第一文本和第二文本的函數(shù)調(diào)用入口開始,分別尋找所述第一文本和第二文本的函數(shù)調(diào)用樹結(jié)構(gòu),并計算得到第一文本結(jié)構(gòu)向量和第二文本結(jié)構(gòu)向量;通過文本語義詞向量計算中間語義詞向量,將所述第一文本結(jié)構(gòu)向量和第二文本結(jié)構(gòu)向量取并集后,計算第一中間結(jié)構(gòu)向量和第二中間結(jié)構(gòu)向量;進(jìn)而得到所述第一文本和第二文本的相似度。本發(fā)明首先采用預(yù)處理函數(shù)對代碼文件進(jìn)行代碼精簡,提高檢測效率,降低檢測錯誤率。 |
