一種文本相似性比對(duì)方法

基本信息

申請(qǐng)?zhí)?/td> CN201610053813.6 申請(qǐng)日 -
公開(公告)號(hào) CN107015961B 公開(公告)日 2021-06-25
申請(qǐng)公布號(hào) CN107015961B 申請(qǐng)公布日 2021-06-25
分類號(hào) G06F40/289;G06F40/30;G06F16/9535 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張國(guó)文 申請(qǐng)(專利權(quán))人 中文在線集團(tuán)股份有限公司
代理機(jī)構(gòu) 北京市盛峰律師事務(wù)所 代理人 于國(guó)富
地址 100007 北京市東城區(qū)安定門東大街28號(hào)2號(hào)樓9層905號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文本相似性比對(duì)方法,涉及網(wǎng)絡(luò)作品比對(duì)技術(shù)領(lǐng)域。本發(fā)明實(shí)施例中,文本相似性比對(duì)在系統(tǒng)的架構(gòu)上采用分布式架構(gòu),在比對(duì)算法上采用多粒度分層算法,包括以文檔為粗粒度的相似度比對(duì),以及以分段文本為細(xì)粒度的相似度比對(duì),從而在內(nèi)容相似性比對(duì)的效率和精確性上取得了較好的均衡,實(shí)現(xiàn)了如下的性能指標(biāo):在構(gòu)建的測(cè)試數(shù)據(jù)上,平均漏警率和虛警率≤10%,比對(duì)響應(yīng)時(shí)間≤0.1秒。