基于時(shí)間衰減因子的文本實(shí)時(shí)聚類(lèi)方法
基本信息
申請(qǐng)?zhí)?/td> | CN202010562915.7 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN111797235A | 公開(kāi)(公告)日 | 2020-10-20 |
申請(qǐng)公布號(hào) | CN111797235A | 申請(qǐng)公布日 | 2020-10-20 |
分類(lèi)號(hào) | G06F16/35(2019.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 張步良;劉袁靜;張麒;魏選明;魏剛;蒲存?zhèn)?/td> | 申請(qǐng)(專利權(quán))人 | 成都融微軟件服務(wù)有限公司 |
代理機(jī)構(gòu) | 北京科石知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 徐紅崗 |
地址 | 610000四川省成都市高新區(qū)云華路333號(hào)9棟 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種基于時(shí)間衰減因子的文本實(shí)時(shí)聚類(lèi)方法,依據(jù)文本的發(fā)布時(shí)間和發(fā)布平臺(tái)確定文本的初始聚類(lèi)熱度,并根據(jù)時(shí)間的推移不斷衰減,以此作為文本數(shù)據(jù)的聚類(lèi)排序依據(jù)。充分體現(xiàn)了大數(shù)據(jù)領(lǐng)域中新聞話題類(lèi)文本的熱度價(jià)值與時(shí)效性的密切關(guān)系,使后續(xù)的新聞過(guò)濾、信息篩選更加方便,明顯提高了聚類(lèi)的性能;算法設(shè)計(jì)簡(jiǎn)單有效,特別適用于新聞?lì)悤r(shí)效性強(qiáng)的海量流式文本的聚類(lèi)處理。?? |
