基于深度學(xué)習(xí)的網(wǎng)頁模式識別方法及視覺結(jié)構(gòu)學(xué)習(xí)方法
基本信息
申請?zhí)?/td> | CN201510670711.4 | 申請日 | - |
公開(公告)號 | CN105302884B | 公開(公告)日 | 2019-02-19 |
申請公布號 | CN105302884B | 申請公布日 | 2019-02-19 |
分類號 | G06F16/955;G06N3/08;G06F17/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 李志杰;劉麗麗;張作職 | 申請(專利權(quán))人 | 天津海量信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 天津市尚文知識產(chǎn)權(quán)代理有限公司 | 代理人 | 天津海量信息技術(shù)股份有限公司 |
地址 | 300020 天津市和平區(qū)南馬路11號麥購國際大廈23層 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于深度學(xué)習(xí)的網(wǎng)頁模式識別方法,包括以下步驟:以非格式化文本,網(wǎng)頁的超文本標(biāo)記語言的Text源碼作為算法輸入;將上述源碼進(jìn)行分詞;設(shè)計(jì)堆疊降噪自動編碼器,作為網(wǎng)頁的特征學(xué)習(xí)算法;采用神經(jīng)網(wǎng)絡(luò)語言模型對SDAE的輸入進(jìn)行初始化;采用分類算法對通過SDAE學(xué)習(xí)到的文本特征向量進(jìn)行分類;將上述分類結(jié)果進(jìn)行輸出。一種網(wǎng)頁視覺結(jié)構(gòu)學(xué)習(xí)方法,用機(jī)器學(xué)習(xí)的方法學(xué)習(xí)HTML的Text源碼的結(jié)構(gòu),并以此學(xué)習(xí)網(wǎng)頁的視覺結(jié)構(gòu)。本發(fā)明用自然語言處理的方法處理人工語言,用深度學(xué)習(xí)的方法及神經(jīng)網(wǎng)絡(luò)語言模型對HTML的Text源碼進(jìn)行特征學(xué)習(xí),通過本發(fā)明可對各類型網(wǎng)站,如博客、論壇、資訊等的網(wǎng)頁模式進(jìn)行精確識別。 |
