一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法

基本信息

申請?zhí)?/td> CN201510697460.9 申請日 -
公開(公告)號(hào) CN105354264B 公開(公告)日 2018-08-03
申請公布號(hào) CN105354264B 申請公布日 2018-08-03
分類號(hào) G06F17/30;G06F17/28 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 黃河燕;毛先領(lǐng);周強(qiáng);任金偉 申請(專利權(quán))人 華建宇通科技(北京)有限責(zé)任公司
代理機(jī)構(gòu) - 代理人 -
地址 100083 北京市海淀區(qū)學(xué)院路30號(hào)科群大廈(西樓203房間)
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法,屬于文本挖掘技術(shù)領(lǐng)域。此方法將主題標(biāo)簽賦予問題轉(zhuǎn)換成求K近鄰的問題,包含離線數(shù)據(jù)庫構(gòu)建和在線查詢兩個(gè)部分。其中,離線部分利用標(biāo)簽主題模型對帶標(biāo)簽的文檔進(jìn)行處理,得到一個(gè)“主題?標(biāo)簽”數(shù)據(jù)庫。在線部分通過局部敏感哈希在已經(jīng)構(gòu)建好的“主題?標(biāo)簽”數(shù)據(jù)庫中快速查找與待查主題最相似的主題,并把該主題的標(biāo)簽賦給待查主題,并進(jìn)一步通過2種哈希采用序列融合技術(shù)優(yōu)化結(jié)果。本發(fā)明能夠?qū)崿F(xiàn)主題標(biāo)簽的自動(dòng)賦予,使得傳統(tǒng)主題模型的結(jié)果變得可理解;對比現(xiàn)有技術(shù),使用局部敏感哈希進(jìn)行查找的方法使得效率大大提高,能夠在大數(shù)據(jù)上獲得較快較好的主題標(biāo)簽賦予效果。