一種基于HTML源代碼和網(wǎng)頁快照的Web信息抽取方法與系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202110322096.3 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113312568A | 公開(公告)日 | 2021-08-27 |
申請(qǐng)公布號(hào) | CN113312568A | 申請(qǐng)公布日 | 2021-08-27 |
分類號(hào) | G06F16/957(2019.01)I;G06N3/04(2006.01)I;G06K9/62(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 蔡振華;吳俊;江文濤;張翔;陳延藝 | 申請(qǐng)(專利權(quán))人 | 羅普特(廈門)系統(tǒng)集成有限公司 |
代理機(jī)構(gòu) | 廈門福貝知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 陳遠(yuǎn)洋 |
地址 | 361000福建省廈門市思明區(qū)軟件園二期望海路59號(hào)102單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明給出了一種基于HTML源代碼和網(wǎng)頁快照的Web信息抽取方法與系統(tǒng),包括通過收集網(wǎng)頁快照訓(xùn)練數(shù)據(jù),在網(wǎng)頁快照訓(xùn)練數(shù)據(jù)中標(biāo)注表征網(wǎng)頁快照訓(xùn)練數(shù)據(jù)的類別的標(biāo)簽,得到標(biāo)注后的網(wǎng)頁快照訓(xùn)練數(shù)據(jù);將標(biāo)注后的網(wǎng)頁快照訓(xùn)練數(shù)據(jù)輸入混合CNN和BERT的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行模型訓(xùn)練,獲取用于抽取網(wǎng)頁信息的神經(jīng)網(wǎng)絡(luò)模型;最后基于神經(jīng)網(wǎng)絡(luò)模型對(duì)網(wǎng)絡(luò)上的標(biāo)簽未知的網(wǎng)頁快照數(shù)據(jù)進(jìn)行抽取輸出標(biāo)簽未知的網(wǎng)頁快照數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽。通過搜集足夠數(shù)量的網(wǎng)頁極其快照,選擇具有多樣性布局和內(nèi)容的網(wǎng)頁,提高了后續(xù)生成的模型的泛化能力,并且將網(wǎng)頁快照部分和HTML源代碼部分分別輸入CNN和BERT,充分利用了文本和網(wǎng)頁快照的信息,提升了Web信息抽取的精度。 |
