基于TAN樹形樸素貝葉斯算法網(wǎng)頁可點擊識別方法及裝置

基本信息

申請?zhí)?/td> CN201810162571.3 申請日 -
公開(公告)號 CN108388645A 公開(公告)日 2018-08-10
申請公布號 CN108388645A 申請公布日 2018-08-10
分類號 G06F17/30;G06N7/00 分類 計算;推算;計數(shù);
發(fā)明人 周柳陽;張南迪;許皓天 申請(專利權(quán))人 智言科技(深圳)有限公司
代理機構(gòu) 深圳市中科創(chuàng)為專利代理有限公司 代理人 智言科技(深圳)有限公司
地址 518000 廣東省深圳市寶安區(qū)新安街道創(chuàng)業(yè)二路139號新一代信息技術(shù)產(chǎn)業(yè)園C座318
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于TAN樹形樸素貝葉斯算法網(wǎng)頁可點擊識別方法及系統(tǒng),該方法包括:包括:步驟S10,操控瀏覽器獲取目標(biāo)源網(wǎng)頁,爬取該網(wǎng)頁的數(shù)據(jù),并根據(jù)獲取到的數(shù)據(jù)構(gòu)造出標(biāo)簽節(jié)點樹;步驟S20,根據(jù)樸素貝葉斯方法,計算出該標(biāo)簽節(jié)點樹每一個節(jié)點特征在可點擊與不可點擊類別下的條件概率;步驟S30,根據(jù)每個節(jié)點可點擊的條件概率,計算出每一個對父子節(jié)點在可點擊與不可點擊類別下的條件互信息值,并作為邊的權(quán)重;步驟S40,根據(jù)權(quán)重,判斷出擁有較高可點擊概率的節(jié)點,并點擊該節(jié)點。本發(fā)明所涉及的數(shù)據(jù)爬取以及點擊等具體行為不需要人工參與定義,減少人工干預(yù)。加入人工智能輔助,爬取過程人工介入量少,訓(xùn)練好的模型可適應(yīng)大多數(shù)目標(biāo)源,重用性高。