大学生口爆色情视频在线,欧美一区二区三区免费成人视频 ,中文字幕91在线看

請輸入想查詢的關(guān)鍵字

查詢

退出

會(huì)員

商務(wù)合作

瀏覽歷史

清除

首頁/ 安徽中科物聯(lián)科技有限公司/ 專利詳情

基于結(jié)構(gòu)相似網(wǎng)頁集的信息抽取方法

基本信息

申請?zhí)?/td>	CN201610204047.9	申請日	-
公開（公告）號(hào)	CN105824966A	公開（公告）日	2016-08-03
申請公布號(hào)	CN105824966A	申請公布日	2016-08-03
分類號(hào)	G06F17/30(2006.01)I;G06F17/22(2006.01)I	分類	計(jì)算；推算；計(jì)數(shù);
發(fā)明人	任龍;王儒敬;王偉;汪六三	申請（專利權(quán)）人	安徽中科物聯(lián)科技有限公司
代理機(jī)構(gòu)	無錫市大為專利商標(biāo)事務(wù)所（普通合伙）	代理人	無錫中科富農(nóng)物聯(lián)科技有限公司;安徽中科物聯(lián)科技有限公司;江蘇物聯(lián)網(wǎng)研究發(fā)展中心
地址	214135 江蘇省無錫市新區(qū)菱湖大道200號(hào)江蘇物聯(lián)網(wǎng)研究與發(fā)展中心C座3樓
法律狀態(tài)	-

摘要

本發(fā)明涉及了一種基于結(jié)構(gòu)相似網(wǎng)頁集的信息抽取方法，分為去噪階段，匹配階段以及信息抽取階段。去噪階段負(fù)責(zé)將相似網(wǎng)頁集中的網(wǎng)頁規(guī)范，使得相似網(wǎng)頁集中的網(wǎng)頁完全符合W3C的XHTML標(biāo)準(zhǔn)。在進(jìn)入匹配階段后，從網(wǎng)頁集中隨機(jī)選擇兩個(gè)網(wǎng)頁，比較兩個(gè)網(wǎng)頁DOM樹中不匹配的部分；會(huì)出現(xiàn)三種不匹配狀態(tài)，分別對(duì)三種不匹配狀態(tài)加以處理，生成一個(gè)包裝器。在信息抽取階段，用包裝器抽取相似網(wǎng)頁集中的數(shù)據(jù)，生成一個(gè)XML文件，保存著從相似網(wǎng)頁集中得到的數(shù)據(jù)。本發(fā)明的優(yōu)點(diǎn)是：基于相似網(wǎng)頁的信息抽取可以根據(jù)相似網(wǎng)頁結(jié)構(gòu)相似性的特點(diǎn)自動(dòng)生成包裝器，不需要人工參與以及先驗(yàn)知識(shí)的指導(dǎo)，適用于數(shù)據(jù)比較密集型的網(wǎng)頁，能夠很好地從相似網(wǎng)頁集中生成數(shù)據(jù)。

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩 内射 人妻

www久久伊人网|无码 av 一区|精品国产污污网站|欧美日韩无码一区|九九精品视在线看|久久人人爽人人骑|亚洲色图激情人妻|玖玖九九无码视频|AV天堂亚洲欧洲|日韩内射人妻