一種網頁分類方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201611117608.8 申請日 -
公開(公告)號 CN106599155B 公開(公告)日 2020-05-26
申請公布號 CN106599155B 申請公布日 2020-05-26
分類號 G06F16/35;G06F40/284;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 謝念;周名揚;洪秋月;潘練;金堯;林飛;唐新民;沈智杰;景曉軍 申請(專利權)人 任子行網絡技術股份有限公司
代理機構 深圳市順天達專利商標代理有限公司 代理人 任子行網絡技術股份有限公司;北京亞鴻世紀科技發(fā)展有限公司
地址 100088 北京市海淀區(qū)學院南路12號院57號1層105-1室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種網頁分類方法,包括:抓取并從網頁的文本數(shù)據(jù)中提取所述網頁的關鍵詞;將所述關鍵詞與已分類好的網頁特征詞庫中的特征詞進行匹配,統(tǒng)計所述特征詞的詞頻總數(shù);判斷所述詞頻總數(shù)是否小于預設的閾值;若是,則截取并根據(jù)所述網頁的頁面圖像對所述網頁進行分類;若否,則根據(jù)多個所述特征詞及其對應的詞頻對所述網頁進行分類。由此,所述方法綜合利用圖像信息與文本信息,有機地結合了基于文本信息對網頁進行分類和基于圖像信息對網頁進行分類的方法,通過準確的判斷待分類網頁屬于短文本網頁還是長文本網頁,選擇最合適有效的網頁分類步驟,相比現(xiàn)有的網頁分類方法,其在對現(xiàn)行的網頁進行分類時有更高的準確率和召回率。