話題溯源方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN201510031785.3 申請日 -
公開(公告)號 CN104636324A 公開(公告)日 2015-05-20
申請公布號 CN104636324A 申請公布日 2015-05-20
分類號 G06F17/27(2006.01)I;G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 夏云慶;林海洲;劉軼;程剛 申請(專利權(quán))人 深圳市北科瑞訊信息技術(shù)有限公司
代理機構(gòu) 廣州華進聯(lián)合專利商標代理有限公司 代理人 深圳市北科瑞訊信息技術(shù)有限公司
地址 518000 廣東省深圳市南山區(qū)高新區(qū)南區(qū)深港產(chǎn)學(xué)研基地大樓東座五樓E502-C室
法律狀態(tài) -

摘要

摘要 話題溯源方法包括:輸入新聞,抽取其中的時間戳、專有名詞和關(guān)鍵詞;發(fā)現(xiàn)重復(fù)新聞,以時間戳最早的一篇新聞代表重復(fù)新聞;設(shè)置當前話題層次為根層次,創(chuàng)建根類簇,以時間戳最早的新聞為話題根節(jié)點;S1:構(gòu)建當前類簇詞匯表表示類簇中所有新聞,詞匯表不含在同層次其他類簇中出現(xiàn)超過10次的詞匯,并排序;計算當前類簇新聞之間相似度,相似度超過閾值的新聞歸為一個子類簇;子類簇中時間戳最早的新聞為深一層節(jié)點,每個節(jié)點代表一個子類簇;S2:判斷子類簇中是否僅包含一個新聞,如果不是,則產(chǎn)生深一層子類簇和深一層節(jié)點,重復(fù)步驟S1;否則,將子類簇中的該新聞作為話題樹的葉子節(jié)點,為每篇新聞產(chǎn)生話題溯源路徑。還提供話題溯源系統(tǒng)。