短文本數(shù)據(jù)增強(qiáng)方法、系統(tǒng)及檢測(cè)認(rèn)證服務(wù)平臺(tái)

基本信息

申請(qǐng)?zhí)?/td> CN201711080284.X 申請(qǐng)日 -
公開(公告)號(hào) CN107784112B 公開(公告)日 2020-03-03
申請(qǐng)公布號(hào) CN107784112B 申請(qǐng)公布日 2020-03-03
分類號(hào) G06F16/335;G06F16/33;G06F16/31;G06F16/35 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 趙國(guó)祥;劉小茵;劉業(yè)政;朱婷婷;李玲菲;高智偉;尚斌;姜元春;孫春華;孫見山;程廣明 申請(qǐng)(專利權(quán))人 廣州賽寶認(rèn)證中心服務(wù)有限公司
代理機(jī)構(gòu) 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 代理人 合肥工業(yè)大學(xué);廣州賽寶認(rèn)證中心服務(wù)有限公司;工業(yè)和信息化部電子第五研究所
地址 510610 廣東省廣州市天河區(qū)東莞莊路110號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種短文本數(shù)據(jù)增強(qiáng)方法,包括以下步驟:獲取短文本文檔合集,打開短文本文檔合集內(nèi)的所有文檔,讀取各文檔的文本內(nèi)容;將各文本內(nèi)容作為文本數(shù)據(jù)增強(qiáng)項(xiàng)分別傳送至臨時(shí)存儲(chǔ)區(qū)中;將臨時(shí)存儲(chǔ)區(qū)中的各文本數(shù)據(jù)增強(qiáng)項(xiàng)分別寫入對(duì)應(yīng)的文檔中。上述短文本數(shù)據(jù)增強(qiáng)方法,通過讀取文檔的文本內(nèi)容,將文本內(nèi)容作為文本數(shù)據(jù)增強(qiáng)項(xiàng)傳送至臨時(shí)存儲(chǔ)區(qū)中,將文本數(shù)據(jù)增強(qiáng)項(xiàng)寫入文檔中,在不引用外部信息的情況下,利用自身數(shù)據(jù)信息,增加文本長(zhǎng)度,增強(qiáng)主題信息,有效提高主題質(zhì)量,緩解了文本內(nèi)容過少、文本稀疏性太強(qiáng)而無(wú)法深入理解主題信息的問題,有利于文本主題的挖掘。