一種代碼片段的指紋特征生成方法及匹配方法
基本信息
申請?zhí)?/td> | CN202111449816.9 | 申請日 | - |
公開(公告)號 | CN114138279A | 公開(公告)日 | 2022-03-04 |
申請公布號 | CN114138279A | 申請公布日 | 2022-03-04 |
分類號 | G06F8/41(2018.01)I;G06F16/2455(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 楊欽;余浩翔;許淵聰 | 申請(專利權(quán))人 | 上海安勢信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京維正專利代理有限公司 | 代理人 | 劉美蓮 |
地址 | 200030上海市徐匯區(qū)豐谷路315弄24號1-3層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請公開一種代碼片段的指紋特征生成方法及匹配方法,包括以下步驟:獲取代碼片段的源代碼;對所述源代碼進(jìn)行代碼清洗,得到攜帶有代碼行號信息的連續(xù)字符串;以預(yù)設(shè)字符長度的第一窗口,逐一地滑動(dòng)選取所述連續(xù)字符串中的字符串片段;獲取每個(gè)字符串片段的定長編碼,得到多個(gè)第二定長編碼;以預(yù)設(shè)定長編碼數(shù)量的第二窗口,逐一地滑動(dòng)選取所述多個(gè)第二定長編碼中的定長編碼集合;從每個(gè)定長編碼集合中篩選第三定長編碼,得到多個(gè)第三定長編碼;將所述多個(gè)第三定長編碼作為所述代碼片段的指紋特征。將源代碼從整化零,再以定長編碼來代表字符串片段,實(shí)現(xiàn)數(shù)據(jù)降維以減少后續(xù)的匹配量,并且對定長編碼進(jìn)行篩選以進(jìn)一步降低后續(xù)的匹配量。 |
