一種報(bào)文字段相關(guān)性的評(píng)估方法、裝置、系統(tǒng)及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202010533233.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113806204A 公開(kāi)(公告)日 2021-12-17
申請(qǐng)公布號(hào) CN113806204A 申請(qǐng)公布日 2021-12-17
分類號(hào) G06F11/36(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王方立;黃敏;龍國(guó)東;王靜 申請(qǐng)(專利權(quán))人 北京威努特技術(shù)有限公司
代理機(jī)構(gòu) 北京三聚陽(yáng)光知識(shí)產(chǎn)權(quán)代理有限公司 代理人 李博洋
地址 100085北京市海淀區(qū)上地三街9號(hào)F座9層907
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種報(bào)文字段相關(guān)性的評(píng)估方法、裝置、系統(tǒng)及存儲(chǔ)介質(zhì),該方法包括:將獲取的待評(píng)估數(shù)據(jù)報(bào)文進(jìn)行分組;根據(jù)每組待評(píng)估數(shù)據(jù)報(bào)文的字節(jié)數(shù)分別提取每組數(shù)據(jù)報(bào)文的第n個(gè)字節(jié)進(jìn)行信息熵計(jì)算,得到多個(gè)熵值;根據(jù)由多個(gè)熵值和相應(yīng)報(bào)文構(gòu)成的熵?cái)?shù)組進(jìn)行作差,得到多個(gè)差值數(shù)組;根據(jù)多個(gè)差值數(shù)組分別提取每個(gè)差值數(shù)組的第m個(gè)字節(jié)進(jìn)行求和,得到相關(guān)性數(shù)組;將相關(guān)性數(shù)組中超過(guò)預(yù)設(shè)閾值的數(shù)據(jù)報(bào)文作為相關(guān)性報(bào)文。本發(fā)明實(shí)施例提供的報(bào)文字段相關(guān)性的評(píng)估方法,通過(guò)信息熵的關(guān)聯(lián)性來(lái)推測(cè)報(bào)文字段關(guān)聯(lián)性,可以適用于未知報(bào)文和已知報(bào)文的字段相關(guān)性分析,可以有效解決報(bào)文相關(guān)性識(shí)別的難題。