基于TAN樹(shù)形樸素貝葉斯算法網(wǎng)頁(yè)可點(diǎn)擊識(shí)別方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201810162571.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN108388645B 公開(kāi)(公告)日 2021-08-24
申請(qǐng)公布號(hào) CN108388645B 申請(qǐng)公布日 2021-08-24
分類(lèi)號(hào) G06F16/951(2019.01)I;G06N7/00(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 周柳陽(yáng);張南迪;許皓天 申請(qǐng)(專(zhuān)利權(quán))人 智言科技(深圳)有限公司
代理機(jī)構(gòu) 深圳市中科創(chuàng)為專(zhuān)利代理有限公司 代理人 梁炎芳
地址 518000廣東省深圳市寶安區(qū)新安街道創(chuàng)業(yè)二路139號(hào)新一代信息技術(shù)產(chǎn)業(yè)園C座318
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了基于TAN樹(shù)形樸素貝葉斯算法網(wǎng)頁(yè)可點(diǎn)擊識(shí)別方法及系統(tǒng),該方法包括:包括:步驟S10,操控瀏覽器獲取目標(biāo)源網(wǎng)頁(yè),爬取該網(wǎng)頁(yè)的數(shù)據(jù),并根據(jù)獲取到的數(shù)據(jù)構(gòu)造出標(biāo)簽節(jié)點(diǎn)樹(shù);步驟S20,根據(jù)樸素貝葉斯方法,計(jì)算出該標(biāo)簽節(jié)點(diǎn)樹(shù)每一個(gè)節(jié)點(diǎn)特征在可點(diǎn)擊與不可點(diǎn)擊類(lèi)別下的條件概率;步驟S30,根據(jù)每個(gè)節(jié)點(diǎn)可點(diǎn)擊的條件概率,計(jì)算出每一個(gè)對(duì)父子節(jié)點(diǎn)在可點(diǎn)擊與不可點(diǎn)擊類(lèi)別下的條件互信息值,并作為邊的權(quán)重;步驟S40,根據(jù)權(quán)重,判斷出擁有較高可點(diǎn)擊概率的節(jié)點(diǎn),并點(diǎn)擊該節(jié)點(diǎn)。本發(fā)明所涉及的數(shù)據(jù)爬取以及點(diǎn)擊等具體行為不需要人工參與定義,減少人工干預(yù)。加入人工智能輔助,爬取過(guò)程人工介入量少,訓(xùn)練好的模型可適應(yīng)大多數(shù)目標(biāo)源,重用性高。