文本檢測(cè)方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN201810546892.3 申請(qǐng)日 -
公開(公告)號(hào) CN108829780A 公開(公告)日 2018-11-16
申請(qǐng)公布號(hào) CN108829780A 申請(qǐng)公布日 2018-11-16
分類號(hào) G06F17/30;G06F17/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 于洋;劉磊;徐香義;柏少乾 申請(qǐng)(專利權(quán))人 北京萬(wàn)方數(shù)據(jù)股份有限公司
代理機(jī)構(gòu) 北京市立方律師事務(wù)所 代理人 張?bào)銓?/td>
地址 100036 北京市海淀區(qū)復(fù)興路15號(hào)
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開了一種文本檢測(cè)方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該文本檢測(cè)方法包括:對(duì)待檢測(cè)文本進(jìn)行聚類預(yù)處理,得到所述待檢測(cè)文本各分句中各分詞對(duì)應(yīng)的相似類列表;基于所述相似類列表確定所述待檢測(cè)文本中所有分句對(duì)應(yīng)的相似句子列表,并對(duì)所述相似句子列表中各相似句子進(jìn)行合并,得到相似片段;基于所述相似片段確定所述待檢測(cè)文本與所述相似片段所屬文本的相似度。本申請(qǐng)中,實(shí)現(xiàn)了對(duì)文本的有效檢測(cè),提升了檢測(cè)效率;并且通過(guò)采用TF_IDF值進(jìn)行差值計(jì)算方式,不僅提高了計(jì)算的精確度,亦極大地提高了檢測(cè)速度。