基于深度學(xué)習(xí)的網(wǎng)頁模式識別方法及視覺結(jié)構(gòu)學(xué)習(xí)方法

基本信息

申請?zhí)?/td> CN201510670711.4 申請日 -
公開(公告)號 CN105302884B 公開(公告)日 2019-02-19
申請公布號 CN105302884B 申請公布日 2019-02-19
分類號 G06F16/955;G06N3/08;G06F17/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李志杰;劉麗麗;張作職 申請(專利權(quán))人 天津海量信息技術(shù)股份有限公司
代理機(jī)構(gòu) 天津市尚文知識產(chǎn)權(quán)代理有限公司 代理人 天津海量信息技術(shù)股份有限公司
地址 300020 天津市和平區(qū)南馬路11號麥購國際大廈23層
法律狀態(tài) -

摘要

摘要 一種基于深度學(xué)習(xí)的網(wǎng)頁模式識別方法,包括以下步驟:以非格式化文本,網(wǎng)頁的超文本標(biāo)記語言的Text源碼作為算法輸入;將上述源碼進(jìn)行分詞;設(shè)計(jì)堆疊降噪自動編碼器,作為網(wǎng)頁的特征學(xué)習(xí)算法;采用神經(jīng)網(wǎng)絡(luò)語言模型對SDAE的輸入進(jìn)行初始化;采用分類算法對通過SDAE學(xué)習(xí)到的文本特征向量進(jìn)行分類;將上述分類結(jié)果進(jìn)行輸出。一種網(wǎng)頁視覺結(jié)構(gòu)學(xué)習(xí)方法,用機(jī)器學(xué)習(xí)的方法學(xué)習(xí)HTML的Text源碼的結(jié)構(gòu),并以此學(xué)習(xí)網(wǎng)頁的視覺結(jié)構(gòu)。本發(fā)明用自然語言處理的方法處理人工語言,用深度學(xué)習(xí)的方法及神經(jīng)網(wǎng)絡(luò)語言模型對HTML的Text源碼進(jìn)行特征學(xué)習(xí),通過本發(fā)明可對各類型網(wǎng)站,如博客、論壇、資訊等的網(wǎng)頁模式進(jìn)行精確識別。