基于網(wǎng)絡(luò)爬蟲(chóng)的批量提取處理文本信息的系統(tǒng)及方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110137453.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN112905865A | 公開(kāi)(公告)日 | 2021-06-04 |
申請(qǐng)公布號(hào) | CN112905865A | 申請(qǐng)公布日 | 2021-06-04 |
分類(lèi)號(hào) | G06F16/951;G06F16/958;G06F16/35;G06F16/18 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 郭振江;楊成凱;戴薇;謝亞飛 | 申請(qǐng)(專(zhuān)利權(quán))人 | 中金云金融(北京)大數(shù)據(jù)科技股份有限公司 |
代理機(jī)構(gòu) | 北京獻(xiàn)智知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 楊獻(xiàn)智 |
地址 | 100176 北京市大興區(qū)北京經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)博興八路1號(hào)2幢2318室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)一種基于網(wǎng)絡(luò)爬蟲(chóng)的批量提取處理文本信息的系統(tǒng)及方法,其中,系統(tǒng)包括:格式解析單元,其用于對(duì)存儲(chǔ)的所有文檔的格式進(jìn)行分析,轉(zhuǎn)換為文本信息,并統(tǒng)一為HTML語(yǔ)言的格式文檔;解析庫(kù)單元,其與格式解析單元通信連接,用于存儲(chǔ)經(jīng)格式解析單元轉(zhuǎn)換格式后的格式文檔;爬蟲(chóng)單元,其與解析庫(kù)單元通信連接,用于提供文本信息的文本特征值集合,通過(guò)構(gòu)建爬蟲(chóng)獲取解析庫(kù)單元中與文本特征值集合相匹配的格式文檔,爬取出目標(biāo)文本信息;以及統(tǒng)計(jì)單元,其與爬蟲(chóng)單元通信連接,用于抽取目標(biāo)文本信息并進(jìn)行統(tǒng)計(jì)。 |
