停用詞的挖掘方法和裝置、搜索方法和裝置、評測方法和裝置

基本信息

申請?zhí)?/td> CN201210572702.8 申請日 -
公開(公告)號 CN103902552B 公開(公告)日 2019-03-26
申請公布號 CN103902552B 申請公布日 2019-03-26
分類號 G06F16/951(2019.01)I; G06F16/953(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 趙耀; 胡熠; 劉磊; 程佳 申請(專利權(quán))人 深圳市世紀(jì)光速信息技術(shù)有限公司
代理機構(gòu) 廣州華進聯(lián)合專利商標(biāo)代理有限公司 代理人 何平;鄧云鵬
地址 518057 廣東省深圳市南山區(qū)粵海街道科技中一路騰訊大廈16層
法律狀態(tài) -

摘要

摘要 一種停用詞的挖掘方法,包括以下步驟:獲取查詢?nèi)罩荆猾@取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊~的逆向文檔頻率、查詢詞的相對詞權(quán)重、因修改查詢串行為產(chǎn)生的查詢詞集合、因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對應(yīng)關(guān)系集中至少一種屬性信息,并根據(jù)所述屬性信息生成停用詞集。此外,還提供了停用詞的挖掘裝置、搜索方法和搜索裝置、停用詞的挖掘算法的評測方法和裝置。上述停用詞的挖掘方法和裝置,提高了停用詞的準(zhǔn)確率;上述搜索方法和裝置通過去掉停用詞把原始的查詢串簡化,可搜索到更多相關(guān)的網(wǎng)頁,提高了搜索的準(zhǔn)確率;上述停用詞的挖掘算法的評測方法和裝置采用交叉驗證的方式進行評測,比較得出最優(yōu)的算法。