網(wǎng)站分類方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201810607605.5 申請(qǐng)日 -
公開(公告)號(hào) CN108874996B 公開(公告)日 2021-08-24
申請(qǐng)公布號(hào) CN108874996B 申請(qǐng)公布日 2021-08-24
分類號(hào) G06F16/958(2019.01)I;G06F16/951(2019.01)I;G06F16/953(2019.01)I;G06F16/9532(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 蔡自彬;劉哲理;葉金輝;梁爽 申請(qǐng)(專利權(quán))人 北京知道創(chuàng)宇信息技術(shù)股份有限公司
代理機(jī)構(gòu) 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 代理人 孫海杰
地址 100000北京市朝陽(yáng)區(qū)阜通東大街1號(hào)院5號(hào)樓1單元311501室
法律狀態(tài) -

摘要

摘要 本申請(qǐng)實(shí)施例提供一種網(wǎng)站分類方法及裝置。該方法包括:獲得待分類的網(wǎng)站;爬取所述待分類的網(wǎng)站中的頁(yè)面文本以及關(guān)鍵詞;計(jì)算預(yù)先設(shè)置的各個(gè)網(wǎng)站類別標(biāo)簽在所述關(guān)鍵詞中的出現(xiàn)頻率,得到第一分類結(jié)果集,其中,每個(gè)所述網(wǎng)站類別標(biāo)簽包括標(biāo)簽名及其同義詞;將所述頁(yè)面文本以及關(guān)鍵詞輸入到預(yù)先配置的貝葉斯分類模型中,得到第二分類結(jié)果集,其中,所述第二分類結(jié)果集中包括有各個(gè)網(wǎng)站類別標(biāo)簽的預(yù)測(cè)概率值,所述貝葉斯分類模型的訓(xùn)練樣本通過(guò)網(wǎng)站爬取得到;基于所述第一分類結(jié)果集和所述第二分類結(jié)果集輸出分類結(jié)果。由此,采用本申請(qǐng)能夠自動(dòng)生成訓(xùn)練樣本,無(wú)需人工處理,工作量小,同時(shí)在網(wǎng)頁(yè)文本數(shù)據(jù)較少時(shí),也能夠?qū)崿F(xiàn)準(zhǔn)確的網(wǎng)站分類。