一種文本相似性比對方法
基本信息
申請?zhí)?/td> | CN201610053813.6 | 申請日 | - |
公開(公告)號 | CN107015961A | 公開(公告)日 | 2021-06-25 |
申請公布號 | CN107015961A | 申請公布日 | 2021-06-25 |
分類號 | G06F17/27;G06F17/30 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 張國文 | 申請(專利權(quán))人 | 中文在線集團股份有限公司 |
代理機構(gòu) | 北京市盛峰律師事務(wù)所 | 代理人 | 于國富 |
地址 | 100007 北京市東城區(qū)安定門東大街28號2號樓9層905號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種文本相似性比對方法,涉及網(wǎng)絡(luò)作品比對技術(shù)領(lǐng)域。本發(fā)明實施例中,文本相似性比對在系統(tǒng)的架構(gòu)上采用分布式架構(gòu),在比對算法上采用多粒度分層算法,包括以文檔為粗粒度的相似度比對,以及以分段文本為細粒度的相似度比對,從而在內(nèi)容相似性比對的效率和精確性上取得了較好的均衡,實現(xiàn)了如下的性能指標(biāo):在構(gòu)建的測試數(shù)據(jù)上,平均漏警率和虛警率≤10%,比對響應(yīng)時間≤0.1秒。 |
