一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法
基本信息
申請?zhí)?/td> | CN201510697460.9 | 申請日 | - |
公開(公告)號(hào) | CN105354264B | 公開(公告)日 | 2018-08-03 |
申請公布號(hào) | CN105354264B | 申請公布日 | 2018-08-03 |
分類號(hào) | G06F17/30;G06F17/28 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 黃河燕;毛先領(lǐng);周強(qiáng);任金偉 | 申請(專利權(quán))人 | 華建宇通科技(北京)有限責(zé)任公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 100083 北京市海淀區(qū)學(xué)院路30號(hào)科群大廈(西樓203房間) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法,屬于文本挖掘技術(shù)領(lǐng)域。此方法將主題標(biāo)簽賦予問題轉(zhuǎn)換成求K近鄰的問題,包含離線數(shù)據(jù)庫構(gòu)建和在線查詢兩個(gè)部分。其中,離線部分利用標(biāo)簽主題模型對帶標(biāo)簽的文檔進(jìn)行處理,得到一個(gè)“主題?標(biāo)簽”數(shù)據(jù)庫。在線部分通過局部敏感哈希在已經(jīng)構(gòu)建好的“主題?標(biāo)簽”數(shù)據(jù)庫中快速查找與待查主題最相似的主題,并把該主題的標(biāo)簽賦給待查主題,并進(jìn)一步通過2種哈希采用序列融合技術(shù)優(yōu)化結(jié)果。本發(fā)明能夠?qū)崿F(xiàn)主題標(biāo)簽的自動(dòng)賦予,使得傳統(tǒng)主題模型的結(jié)果變得可理解;對比現(xiàn)有技術(shù),使用局部敏感哈希進(jìn)行查找的方法使得效率大大提高,能夠在大數(shù)據(jù)上獲得較快較好的主題標(biāo)簽賦予效果。 |
