基于網(wǎng)絡(luò)爬蟲(chóng)的批量提取處理文本信息的系統(tǒng)及方法

基本信息

申請(qǐng)?zhí)?/td> CN202110137453.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112905865A 公開(kāi)(公告)日 2021-06-04
申請(qǐng)公布號(hào) CN112905865A 申請(qǐng)公布日 2021-06-04
分類(lèi)號(hào) G06F16/951;G06F16/958;G06F16/35;G06F16/18 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 郭振江;楊成凱;戴薇;謝亞飛 申請(qǐng)(專(zhuān)利權(quán))人 中金云金融(北京)大數(shù)據(jù)科技股份有限公司
代理機(jī)構(gòu) 北京獻(xiàn)智知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 楊獻(xiàn)智
地址 100176 北京市大興區(qū)北京經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)博興八路1號(hào)2幢2318室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)一種基于網(wǎng)絡(luò)爬蟲(chóng)的批量提取處理文本信息的系統(tǒng)及方法,其中,系統(tǒng)包括:格式解析單元,其用于對(duì)存儲(chǔ)的所有文檔的格式進(jìn)行分析,轉(zhuǎn)換為文本信息,并統(tǒng)一為HTML語(yǔ)言的格式文檔;解析庫(kù)單元,其與格式解析單元通信連接,用于存儲(chǔ)經(jīng)格式解析單元轉(zhuǎn)換格式后的格式文檔;爬蟲(chóng)單元,其與解析庫(kù)單元通信連接,用于提供文本信息的文本特征值集合,通過(guò)構(gòu)建爬蟲(chóng)獲取解析庫(kù)單元中與文本特征值集合相匹配的格式文檔,爬取出目標(biāo)文本信息;以及統(tǒng)計(jì)單元,其與爬蟲(chóng)單元通信連接,用于抽取目標(biāo)文本信息并進(jìn)行統(tǒng)計(jì)。