一種詞向量的訓練方法和裝置

基本信息

申請?zhí)?/td> CN201610179115.0 申請日 -
公開(公告)號 CN105786782B 公開(公告)日 2018-10-19
申請公布號 CN105786782B 申請公布日 2018-10-19
分類號 G06F17/22;G06F17/27;G06F17/30 分類 計算;推算;計數(shù);
發(fā)明人 邢寧;劉明榮;許靜芳;常曉夫;王曉偉 申請(專利權(quán))人 北京搜狗信息服務有限公司
代理機構(gòu) 北京集佳知識產(chǎn)權(quán)代理有限公司 代理人 北京搜狗信息服務有限公司
地址 100084 北京市海淀區(qū)中關(guān)村東路1號院9號樓搜狐網(wǎng)絡大廈9層02房間
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種詞向量的訓練方法和裝置,其中,所述方法包括:抓取互聯(lián)網(wǎng)網(wǎng)頁,獲取訓練語料,保存在語料庫中;對語料庫中的每個訓練語料分別作分詞處理,得到每個訓練語料對應的有序詞集合;根據(jù)預先收集的用戶查詢?nèi)罩緲?gòu)建詞表;將所述語料庫中保存的各訓練語料分發(fā)至分布式詞向量學習模型中的各節(jié)點;配置所述分布式詞向量學習模型對所述詞表中的各詞進行周期性的詞向量訓練,得到所述詞表中各詞對應的詞向量。本發(fā)明提供了一種詞向量的訓練方法和裝置,使得訓練得到的詞向量能夠很好地適用于搜索業(yè)務中,并且能夠?qū)崿F(xiàn)快速迭代的高質(zhì)量詞向量的訓練。