99热这里只有精品导航,中文字幕高清日韩有码最新不卡,欧洲非洲激情精品在线

請輸入想查詢的關(guān)鍵字

查詢

退出

會員

商務(wù)合作

瀏覽歷史

清除

首頁/ 羅普特（廈門）系統(tǒng)集成有限公司/ 專利詳情

一種基于HTML源代碼和網(wǎng)頁快照的Web信息抽取方法與系統(tǒng)

基本信息

申請?zhí)?/td>	CN202110322096.3	申請日	-
公開（公告）號	CN113312568A	公開（公告）日	2021-08-27
申請公布號	CN113312568A	申請公布日	2021-08-27
分類號	G06F16/957（2019.01）I;G06N3/04（2006.01）I;G06K9/62（2006.01）I	分類	計算；推算；計數(shù);
發(fā)明人	蔡振華;吳俊;江文濤;張翔;陳延藝	申請（專利權(quán)）人	羅普特（廈門）系統(tǒng)集成有限公司
代理機構(gòu)	廈門福貝知識產(chǎn)權(quán)代理事務(wù)所（普通合伙）	代理人	陳遠洋
地址	361000福建省廈門市思明區(qū)軟件園二期望海路59號102單元
法律狀態(tài)	-

摘要

本發(fā)明給出了一種基于HTML源代碼和網(wǎng)頁快照的Web信息抽取方法與系統(tǒng)，包括通過收集網(wǎng)頁快照訓(xùn)練數(shù)據(jù)，在網(wǎng)頁快照訓(xùn)練數(shù)據(jù)中標(biāo)注表征網(wǎng)頁快照訓(xùn)練數(shù)據(jù)的類別的標(biāo)簽，得到標(biāo)注后的網(wǎng)頁快照訓(xùn)練數(shù)據(jù)；將標(biāo)注后的網(wǎng)頁快照訓(xùn)練數(shù)據(jù)輸入混合CNN和BERT的神經(jīng)網(wǎng)絡(luò)架構(gòu)進行模型訓(xùn)練，獲取用于抽取網(wǎng)頁信息的神經(jīng)網(wǎng)絡(luò)模型；最后基于神經(jīng)網(wǎng)絡(luò)模型對網(wǎng)絡(luò)上的標(biāo)簽未知的網(wǎng)頁快照數(shù)據(jù)進行抽取輸出標(biāo)簽未知的網(wǎng)頁快照數(shù)據(jù)對應(yīng)的標(biāo)簽。通過搜集足夠數(shù)量的網(wǎng)頁極其快照，選擇具有多樣性布局和內(nèi)容的網(wǎng)頁，提高了后續(xù)生成的模型的泛化能力，并且將網(wǎng)頁快照部分和HTML源代碼部分分別輸入CNN和BERT，充分利用了文本和網(wǎng)頁快照的信息，提升了Web信息抽取的精度。

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩 内射 人妻

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩内射人妻