基于句間關(guān)聯(lián)圖的文本主題挖掘方法

基本信息

申請(qǐng)?zhí)?/td> CN201410451862.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104298709A 公開(kāi)(公告)日 2015-01-21
申請(qǐng)公布號(hào) CN104298709A 申請(qǐng)公布日 2015-01-21
分類(lèi)號(hào) G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 陶余會(huì);吳康寧;孫煦峰;趙亮 申請(qǐng)(專(zhuān)利權(quán))人 上海中和軟件有限公司
代理機(jī)構(gòu) 上海華工專(zhuān)利事務(wù)所(普通合伙) 代理人 繆利明
地址 200433 上海市楊浦區(qū)國(guó)權(quán)路525號(hào)
法律狀態(tài) -

摘要

摘要 一種基于句間關(guān)聯(lián)圖的文本主題挖掘方法,涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,所解決的是現(xiàn)有挖掘方法質(zhì)量低及通用性差的技術(shù)問(wèn)題。該方法先將目標(biāo)文本按句劃分,獲得文本的句子序列表,再構(gòu)建目標(biāo)文本的句子關(guān)聯(lián)矩陣,然后計(jì)算句子序列表中各元素的權(quán)值,并依據(jù)計(jì)算出的權(quán)值選取主題句,每選取一次主題句后即調(diào)整各個(gè)非主題句的權(quán)值,再依據(jù)調(diào)整后的權(quán)值再度選取主題句,如此往復(fù),直至所有主題句的字符長(zhǎng)度之和達(dá)到預(yù)先設(shè)定的字符數(shù)量閾值,最后將所有主題句作為從目標(biāo)文本中挖掘到的主題內(nèi)容。本發(fā)明提供的方法,適用于各種體裁、風(fēng)格、類(lèi)型文本文檔。