一種基于深度神經(jīng)網(wǎng)絡(luò)的公司網(wǎng)站關(guān)鍵詞提取方法
基本信息
申請?zhí)?/td> | CN201811480597.9 | 申請日 | - |
公開(公告)號 | CN109710838A | 公開(公告)日 | 2019-05-03 |
申請公布號 | CN109710838A | 申請公布日 | 2019-05-03 |
分類號 | G06F16/9535(2019.01)I; G06F17/27(2006.01)I; G06N3/08(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王凱鋒; 吳承霖; 王海清 | 申請(專利權(quán))人 | 廈門笨鳥電子商務(wù)有限公司 |
代理機構(gòu) | 廈門市新華專利商標代理有限公司 | 代理人 | 廈門笨鳥電子商務(wù)有限公司 |
地址 | 361000 福建省廈門市思明區(qū)前埔路506、508號國金廣場B座6層01、02單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種基于深度神經(jīng)網(wǎng)絡(luò)的公司網(wǎng)站關(guān)鍵詞提取方法,其通過從公司的一級頁面和二級頁面中獲取基礎(chǔ)語料,然后從基礎(chǔ)語料中提取名詞短語;利用循環(huán)神經(jīng)網(wǎng)絡(luò)模型對名詞短語進行向量化,得到名詞短語向量;將公司的所有名詞短語向量進行加權(quán)求和,得到代表一個公司整體的向量,即公司主向量;采用余弦相似度計算公司的各個名詞短語向量與該公司主向量之間的相似度,并按照相似程度由高至低對公司的名詞短語向量進行排序,得到名詞短語排行榜;在名詞短語排行榜中選擇排名為前K名的名詞短語向量作為公司的主要關(guān)鍵詞。與現(xiàn)有技術(shù)相比,通過本發(fā)明方法獲取到的公司網(wǎng)站關(guān)鍵詞比較準確,使用戶能準確搜索或了解該公司的情況。 |
