一種基于BERT算法的網(wǎng)頁(yè)有害文本識(shí)別方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202111376161.7 申請(qǐng)日 -
公開(公告)號(hào) CN114090775A 公開(公告)日 2022-02-25
申請(qǐng)公布號(hào) CN114090775A 申請(qǐng)公布日 2022-02-25
分類號(hào) G06F16/35(2019.01)I;G06F16/33(2019.01)I;G06F16/951(2019.01)I;G06F16/957(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 周小敏;應(yīng)鴻暉;林國(guó)池;石易;麥麗娟;莫凡;林佳濤;李高翔;黃福鴻;卓采標(biāo);廖淑敏;楊慧強(qiáng);宋宜昌;黃正國(guó);周毅;吳冠標(biāo);李新;蔣維;曹勇;高歡 申請(qǐng)(專利權(quán))人 天津市國(guó)瑞數(shù)碼安全系統(tǒng)股份有限公司
代理機(jī)構(gòu) 北京力量專利代理事務(wù)所(特殊普通合伙) 代理人 王鴻遠(yuǎn)
地址 510075廣東省廣州市天河區(qū)建中路4號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于網(wǎng)頁(yè)文本處理領(lǐng)域,具體涉及一種基于BERT算法的網(wǎng)頁(yè)有害文本識(shí)別方法及系統(tǒng),所述識(shí)別方法包括:步驟1:使用網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁(yè)原始內(nèi)容,得到初始文本;步驟2:基于HTML協(xié)議對(duì)初始文本進(jìn)行文本整理,得到待識(shí)別文本集合;步驟3:將待識(shí)別文本集合輸入到基于BERT中文預(yù)訓(xùn)練模型訓(xùn)練得到的有害信息識(shí)別模型中進(jìn)行有害文本識(shí)別,得到識(shí)別結(jié)果;步驟4:對(duì)識(shí)別結(jié)果進(jìn)行人工驗(yàn)證,并基于得到的異常識(shí)別樣本更新有害信息識(shí)別模型。上述方法不僅準(zhǔn)確提取有效的網(wǎng)頁(yè)文本,利用已有的有害文本判斷模型實(shí)現(xiàn)網(wǎng)頁(yè)文本內(nèi)容識(shí)別,同時(shí)還通過(guò)人工校正對(duì)有害文本判斷模型進(jìn)行訓(xùn)練更新,進(jìn)一步提升有害文本判斷模型的準(zhǔn)確性。