基于詞向量進(jìn)行近似搜索快速提取廣告文本主題的方法
基本信息
申請?zhí)?/td> | CN201910852577.8 | 申請日 | - |
公開(公告)號 | CN110717329A | 公開(公告)日 | 2020-01-21 |
申請公布號 | CN110717329A | 申請公布日 | 2020-01-21 |
分類號 | G06F40/289;G06F40/247;G06F40/242;G06F16/31;G06F16/33;G06K9/62;G06Q30/02 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 李新;李征宇;邵品賢;吳小剛 | 申請(專利權(quán))人 | 上海開域信息科技有限公司 |
代理機構(gòu) | 宿遷市永泰睿博知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 上海開域信息科技有限公司 |
地址 | 200000 上海市長寧區(qū)來福士T1棟28層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于詞向量進(jìn)行近似搜索快速提取廣告文本主題的方法,包括如下步驟:第一步,利用結(jié)巴分詞工具,利用已有的停用詞庫,到廣告標(biāo)題中查找與停用詞庫相同的詞將其去掉即去掉廣告標(biāo)題中的停用詞,提取語料庫中的中文詞將其作為詞典,利用詞典,對廣告文本主題進(jìn)行分詞;本發(fā)明操作方便,采用本發(fā)明可以將GPU?DMM生成模型中單個查詢詞的搜索復(fù)雜度從0(N)下降到0(log N),加速了整個廣告文本主題提取過程,大大提升提取速度,整個流程可以在數(shù)小時內(nèi)完成離線處理和無監(jiān)督訓(xùn)練,能夠應(yīng)對互聯(lián)網(wǎng)廣告行業(yè)的大規(guī)模數(shù)據(jù)量與近實時性要求,可以做到按天更新或者按小時更新用戶興趣標(biāo)簽。 |
