一種文本相似性比對方法

基本信息

申請?zhí)?/td> CN201610053813.6 申請日 -
公開(公告)號 CN107015961A 公開(公告)日 2021-06-25
申請公布號 CN107015961A 申請公布日 2021-06-25
分類號 G06F17/27;G06F17/30 分類 計算;推算;計數(shù);
發(fā)明人 張國文 申請(專利權(quán))人 中文在線集團股份有限公司
代理機構(gòu) 北京市盛峰律師事務(wù)所 代理人 于國富
地址 100007 北京市東城區(qū)安定門東大街28號2號樓9層905號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文本相似性比對方法,涉及網(wǎng)絡(luò)作品比對技術(shù)領(lǐng)域。本發(fā)明實施例中,文本相似性比對在系統(tǒng)的架構(gòu)上采用分布式架構(gòu),在比對算法上采用多粒度分層算法,包括以文檔為粗粒度的相似度比對,以及以分段文本為細粒度的相似度比對,從而在內(nèi)容相似性比對的效率和精確性上取得了較好的均衡,實現(xiàn)了如下的性能指標(biāo):在構(gòu)建的測試數(shù)據(jù)上,平均漏警率和虛警率≤10%,比對響應(yīng)時間≤0.1秒。