一種基于分布式系統(tǒng)的解析超大文本文件處理方法

基本信息

申請(qǐng)?zhí)?/td> CN202011603232.8 申請(qǐng)日 -
公開(公告)號(hào) CN112698988A 公開(公告)日 2021-04-23
申請(qǐng)公布號(hào) CN112698988A 申請(qǐng)公布日 2021-04-23
分類號(hào) G06F11/14;G06F16/172;G06F16/182 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李立強(qiáng);吳福全;王淋淋 申請(qǐng)(專利權(quán))人 安徽迪科數(shù)金科技有限公司
代理機(jī)構(gòu) 合肥正則元起專利代理事務(wù)所(普通合伙) 代理人 王俊曉
地址 230000 安徽省合肥市高新區(qū)云飛路66號(hào)天源迪科科技園1號(hào)樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于分布式系統(tǒng)的解析超大文本文件處理方法,獲取樣本數(shù)據(jù)和解析分布數(shù)據(jù),解析分布數(shù)據(jù)包含若干個(gè)主機(jī)的類型數(shù)據(jù)、處理速率數(shù)據(jù)、處理內(nèi)存數(shù)據(jù)、存儲(chǔ)內(nèi)存數(shù)據(jù)和狀態(tài)數(shù)據(jù);對(duì)解析分布數(shù)據(jù)進(jìn)行分布式分析,得到分布分析數(shù)據(jù);根據(jù)分布分析數(shù)據(jù)對(duì)樣本數(shù)據(jù)進(jìn)行劃分和分配,得到樣本分配集;對(duì)樣本分配集進(jìn)行分布式處理,得到樣本處理集;將樣本處理集進(jìn)行組合,得到樣本解析集;本發(fā)明用于解決不能根據(jù)分布主機(jī)的工作狀態(tài)和工作能力進(jìn)行針對(duì)性分發(fā)數(shù)據(jù)和處理,使得整體的數(shù)據(jù)受到節(jié)點(diǎn)主機(jī)的影響進(jìn)而使得數(shù)據(jù)的處理效率不佳的問題,以及不能將整體數(shù)據(jù)進(jìn)行均衡劃分和分配使得節(jié)點(diǎn)主機(jī)處理數(shù)據(jù)的效率達(dá)到最佳的問題。