一種基于網(wǎng)絡(luò)爬蟲的知識圖譜數(shù)據(jù)抽取方法及裝置

基本信息

申請?zhí)?/td> CN202110034207.0 申請日 -
公開(公告)號 CN112800305A 公開(公告)日 2021-05-14
申請公布號 CN112800305A 申請公布日 2021-05-14
分類號 G06F16/951;G06F16/36;G06F40/205 分類 計算;推算;計數(shù);
發(fā)明人 洪萬福;錢智毅;吳文杰 申請(專利權(quán))人 廈門淵亭信息科技有限公司
代理機(jī)構(gòu) 北京鼎承知識產(chǎn)權(quán)代理有限公司 代理人 王義剛;賴慶梧
地址 361000 福建省廈門市軟件園二期望海路61號801單元N8-01
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例提供了一種基于網(wǎng)絡(luò)爬蟲的知識圖譜數(shù)據(jù)抽取方法、裝置、可讀存儲介質(zhì)及計算設(shè)備,用于實現(xiàn)爬蟲代碼復(fù)用,批量深度自動化爬取網(wǎng)頁數(shù)據(jù),避免頁面變化導(dǎo)致需要大量修改網(wǎng)頁解析的代碼。方法包括:獲取用于爬取數(shù)據(jù)的目標(biāo)網(wǎng)頁;配置所述目標(biāo)網(wǎng)頁的爬取規(guī)則和解析規(guī)則;根據(jù)所述爬取規(guī)則爬取所述目標(biāo)網(wǎng)頁和所述目標(biāo)網(wǎng)頁鏈接的網(wǎng)頁;以及,根據(jù)所述解析規(guī)則獲取所述目標(biāo)網(wǎng)頁和所述目標(biāo)網(wǎng)頁鏈接的網(wǎng)頁中包含的實體信息與關(guān)系信息;根據(jù)所述實體信息與關(guān)系信息生成知識圖譜。