基于TAN樹形樸素貝葉斯算法網(wǎng)頁可點擊識別方法及裝置
基本信息
申請?zhí)?/td> | CN201810162571.3 | 申請日 | - |
公開(公告)號 | CN108388645A | 公開(公告)日 | 2018-08-10 |
申請公布號 | CN108388645A | 申請公布日 | 2018-08-10 |
分類號 | G06F17/30;G06N7/00 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 周柳陽;張南迪;許皓天 | 申請(專利權(quán))人 | 智言科技(深圳)有限公司 |
代理機構(gòu) | 深圳市中科創(chuàng)為專利代理有限公司 | 代理人 | 智言科技(深圳)有限公司 |
地址 | 518000 廣東省深圳市寶安區(qū)新安街道創(chuàng)業(yè)二路139號新一代信息技術(shù)產(chǎn)業(yè)園C座318 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了基于TAN樹形樸素貝葉斯算法網(wǎng)頁可點擊識別方法及系統(tǒng),該方法包括:包括:步驟S10,操控瀏覽器獲取目標(biāo)源網(wǎng)頁,爬取該網(wǎng)頁的數(shù)據(jù),并根據(jù)獲取到的數(shù)據(jù)構(gòu)造出標(biāo)簽節(jié)點樹;步驟S20,根據(jù)樸素貝葉斯方法,計算出該標(biāo)簽節(jié)點樹每一個節(jié)點特征在可點擊與不可點擊類別下的條件概率;步驟S30,根據(jù)每個節(jié)點可點擊的條件概率,計算出每一個對父子節(jié)點在可點擊與不可點擊類別下的條件互信息值,并作為邊的權(quán)重;步驟S40,根據(jù)權(quán)重,判斷出擁有較高可點擊概率的節(jié)點,并點擊該節(jié)點。本發(fā)明所涉及的數(shù)據(jù)爬取以及點擊等具體行為不需要人工參與定義,減少人工干預(yù)。加入人工智能輔助,爬取過程人工介入量少,訓(xùn)練好的模型可適應(yīng)大多數(shù)目標(biāo)源,重用性高。 |
