基于詞向量進(jìn)行近似搜索快速提取廣告文本主題的方法

基本信息

申請?zhí)?/td> CN201910852577.8 申請日 -
公開(公告)號 CN110717329A 公開(公告)日 2020-01-21
申請公布號 CN110717329A 申請公布日 2020-01-21
分類號 G06F40/289;G06F40/247;G06F40/242;G06F16/31;G06F16/33;G06K9/62;G06Q30/02 分類 計算;推算;計數(shù);
發(fā)明人 李新;李征宇;邵品賢;吳小剛 申請(專利權(quán))人 上海開域信息科技有限公司
代理機構(gòu) 宿遷市永泰睿博知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 上海開域信息科技有限公司
地址 200000 上海市長寧區(qū)來福士T1棟28層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于詞向量進(jìn)行近似搜索快速提取廣告文本主題的方法,包括如下步驟:第一步,利用結(jié)巴分詞工具,利用已有的停用詞庫,到廣告標(biāo)題中查找與停用詞庫相同的詞將其去掉即去掉廣告標(biāo)題中的停用詞,提取語料庫中的中文詞將其作為詞典,利用詞典,對廣告文本主題進(jìn)行分詞;本發(fā)明操作方便,采用本發(fā)明可以將GPU?DMM生成模型中單個查詢詞的搜索復(fù)雜度從0(N)下降到0(log N),加速了整個廣告文本主題提取過程,大大提升提取速度,整個流程可以在數(shù)小時內(nèi)完成離線處理和無監(jiān)督訓(xùn)練,能夠應(yīng)對互聯(lián)網(wǎng)廣告行業(yè)的大規(guī)模數(shù)據(jù)量與近實時性要求,可以做到按天更新或者按小時更新用戶興趣標(biāo)簽。