網(wǎng)頁自動(dòng)分類方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201010022549.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN101814083A | 公開(公告)日 | 2010-08-25 |
申請(qǐng)公布號(hào) | CN101814083A | 申請(qǐng)公布日 | 2010-08-25 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 魏亮;丁力;韓雪嶺;郭為;張薇 | 申請(qǐng)(專利權(quán))人 | 上海復(fù)歌信息科技有限公司 |
代理機(jī)構(gòu) | 上海智信專利代理有限公司 | 代理人 | 上海復(fù)歌信息科技有限公司 |
地址 | 200437 上海市楊浦區(qū)邯鄲路100號(hào)61號(hào)樓207室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種網(wǎng)頁自動(dòng)分類方法和系統(tǒng),該方法包括以下步驟:S1、搜索與客戶網(wǎng)頁相關(guān)的網(wǎng)站網(wǎng)頁,從中抓取出網(wǎng)頁的標(biāo)題和變數(shù)據(jù)信息,形成網(wǎng)頁列表集合;S2、對(duì)所述網(wǎng)頁列表集合中的文字進(jìn)行處理,形成分類關(guān)鍵詞列表集合;S3、統(tǒng)計(jì)所述分類關(guān)鍵詞列表集合中的分類關(guān)鍵詞在所有網(wǎng)頁中出現(xiàn)的頻率,使每一個(gè)網(wǎng)頁對(duì)應(yīng)一個(gè)分類關(guān)鍵詞頻率向量;S4、建立統(tǒng)計(jì)模型,計(jì)算各目標(biāo)網(wǎng)頁和客戶網(wǎng)頁之間的分類關(guān)鍵詞頻率向量距離,得到目標(biāo)網(wǎng)頁和客戶網(wǎng)頁之間的相關(guān)度,基于該相關(guān)度對(duì)各目標(biāo)網(wǎng)頁進(jìn)行自動(dòng)分類。本發(fā)明能自動(dòng)發(fā)現(xiàn)最優(yōu)的基于無偏估計(jì)的網(wǎng)頁,從而為客戶推薦大量的優(yōu)質(zhì)潛在網(wǎng)頁進(jìn)行鏈接交換。 |
