話題溯源方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201510031785.3 申請(qǐng)日 -
公開(公告)號(hào) CN104636324B 公開(公告)日 2017-12-05
申請(qǐng)公布號(hào) CN104636324B 申請(qǐng)公布日 2017-12-05
分類號(hào) G06F17/27(2006.01)I;G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 夏云慶;林海洲;劉軼;程剛 申請(qǐng)(專利權(quán))人 深圳市北科瑞訊信息技術(shù)有限公司
代理機(jī)構(gòu) 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 代理人 深圳市北科瑞訊信息技術(shù)有限公司
地址 518000 廣東省深圳市南山區(qū)高新區(qū)南區(qū)深港產(chǎn)學(xué)研基地大樓東座五樓E502-C室
法律狀態(tài) -

摘要

摘要 話題溯源方法包括:輸入新聞,抽取其中的時(shí)間戳、專有名詞和關(guān)鍵詞;發(fā)現(xiàn)重復(fù)新聞,以時(shí)間戳最早的一篇新聞代表重復(fù)新聞;設(shè)置當(dāng)前話題層次為根層次,創(chuàng)建根類簇,以時(shí)間戳最早的新聞為話題根節(jié)點(diǎn);S1:構(gòu)建當(dāng)前類簇詞匯表表示類簇中所有新聞,詞匯表不含在同層次其他類簇中出現(xiàn)超過10次的詞匯,并排序;計(jì)算當(dāng)前類簇新聞之間相似度,相似度超過閾值的新聞歸為一個(gè)子類簇;子類簇中時(shí)間戳最早的新聞為深一層節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)子類簇;S2:判斷子類簇中是否僅包含一個(gè)新聞,如果不是,則產(chǎn)生深一層子類簇和深一層節(jié)點(diǎn),重復(fù)步驟S1;否則,將子類簇中的該新聞作為話題樹的葉子節(jié)點(diǎn),為每篇新聞產(chǎn)生話題溯源路徑。還提供話題溯源系統(tǒng)。