網(wǎng)站分類方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201810607605.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN108874996B | 公開(公告)日 | 2021-08-24 |
申請(qǐng)公布號(hào) | CN108874996B | 申請(qǐng)公布日 | 2021-08-24 |
分類號(hào) | G06F16/958(2019.01)I;G06F16/951(2019.01)I;G06F16/953(2019.01)I;G06F16/9532(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 蔡自彬;劉哲理;葉金輝;梁爽 | 申請(qǐng)(專利權(quán))人 | 北京知道創(chuàng)宇信息技術(shù)股份有限公司 |
代理機(jī)構(gòu) | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) | 代理人 | 孫海杰 |
地址 | 100000北京市朝陽(yáng)區(qū)阜通東大街1號(hào)院5號(hào)樓1單元311501室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)實(shí)施例提供一種網(wǎng)站分類方法及裝置。該方法包括:獲得待分類的網(wǎng)站;爬取所述待分類的網(wǎng)站中的頁(yè)面文本以及關(guān)鍵詞;計(jì)算預(yù)先設(shè)置的各個(gè)網(wǎng)站類別標(biāo)簽在所述關(guān)鍵詞中的出現(xiàn)頻率,得到第一分類結(jié)果集,其中,每個(gè)所述網(wǎng)站類別標(biāo)簽包括標(biāo)簽名及其同義詞;將所述頁(yè)面文本以及關(guān)鍵詞輸入到預(yù)先配置的貝葉斯分類模型中,得到第二分類結(jié)果集,其中,所述第二分類結(jié)果集中包括有各個(gè)網(wǎng)站類別標(biāo)簽的預(yù)測(cè)概率值,所述貝葉斯分類模型的訓(xùn)練樣本通過(guò)網(wǎng)站爬取得到;基于所述第一分類結(jié)果集和所述第二分類結(jié)果集輸出分類結(jié)果。由此,采用本申請(qǐng)能夠自動(dòng)生成訓(xùn)練樣本,無(wú)需人工處理,工作量小,同時(shí)在網(wǎng)頁(yè)文本數(shù)據(jù)較少時(shí),也能夠?qū)崿F(xiàn)準(zhǔn)確的網(wǎng)站分類。 |
