一種文本相似性比對(duì)方法
基本信息
申請(qǐng)?zhí)?/td> | CN201610053813.6 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN107015961B | 公開(公告)日 | 2021-06-25 |
申請(qǐng)公布號(hào) | CN107015961B | 申請(qǐng)公布日 | 2021-06-25 |
分類號(hào) | G06F40/289;G06F40/30;G06F16/9535 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張國(guó)文 | 申請(qǐng)(專利權(quán))人 | 中文在線集團(tuán)股份有限公司 |
代理機(jī)構(gòu) | 北京市盛峰律師事務(wù)所 | 代理人 | 于國(guó)富 |
地址 | 100007 北京市東城區(qū)安定門東大街28號(hào)2號(hào)樓9層905號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種文本相似性比對(duì)方法,涉及網(wǎng)絡(luò)作品比對(duì)技術(shù)領(lǐng)域。本發(fā)明實(shí)施例中,文本相似性比對(duì)在系統(tǒng)的架構(gòu)上采用分布式架構(gòu),在比對(duì)算法上采用多粒度分層算法,包括以文檔為粗粒度的相似度比對(duì),以及以分段文本為細(xì)粒度的相似度比對(duì),從而在內(nèi)容相似性比對(duì)的效率和精確性上取得了較好的均衡,實(shí)現(xiàn)了如下的性能指標(biāo):在構(gòu)建的測(cè)試數(shù)據(jù)上,平均漏警率和虛警率≤10%,比對(duì)響應(yīng)時(shí)間≤0.1秒。 |
