基于時(shí)間衰減因子的文本實(shí)時(shí)聚類(lèi)方法

基本信息

申請(qǐng)?zhí)?/td> CN202010562915.7 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111797235A 公開(kāi)(公告)日 2020-10-20
申請(qǐng)公布號(hào) CN111797235A 申請(qǐng)公布日 2020-10-20
分類(lèi)號(hào) G06F16/35(2019.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張步良;劉袁靜;張麒;魏選明;魏剛;蒲存?zhèn)?/td> 申請(qǐng)(專利權(quán))人 成都融微軟件服務(wù)有限公司
代理機(jī)構(gòu) 北京科石知識(shí)產(chǎn)權(quán)代理有限公司 代理人 徐紅崗
地址 610000四川省成都市高新區(qū)云華路333號(hào)9棟
法律狀態(tài) -

摘要

摘要 一種基于時(shí)間衰減因子的文本實(shí)時(shí)聚類(lèi)方法,依據(jù)文本的發(fā)布時(shí)間和發(fā)布平臺(tái)確定文本的初始聚類(lèi)熱度,并根據(jù)時(shí)間的推移不斷衰減,以此作為文本數(shù)據(jù)的聚類(lèi)排序依據(jù)。充分體現(xiàn)了大數(shù)據(jù)領(lǐng)域中新聞話題類(lèi)文本的熱度價(jià)值與時(shí)效性的密切關(guān)系,使后續(xù)的新聞過(guò)濾、信息篩選更加方便,明顯提高了聚類(lèi)的性能;算法設(shè)計(jì)簡(jiǎn)單有效,特別適用于新聞?lì)悤r(shí)效性強(qiáng)的海量流式文本的聚類(lèi)處理。??