一種基于網(wǎng)絡(luò)爬蟲的知識圖譜數(shù)據(jù)抽取方法及裝置
基本信息
申請?zhí)?/td> | CN202110034207.0 | 申請日 | - |
公開(公告)號 | CN112800305A | 公開(公告)日 | 2021-05-14 |
申請公布號 | CN112800305A | 申請公布日 | 2021-05-14 |
分類號 | G06F16/951;G06F16/36;G06F40/205 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 洪萬福;錢智毅;吳文杰 | 申請(專利權(quán))人 | 廈門淵亭信息科技有限公司 |
代理機(jī)構(gòu) | 北京鼎承知識產(chǎn)權(quán)代理有限公司 | 代理人 | 王義剛;賴慶梧 |
地址 | 361000 福建省廈門市軟件園二期望海路61號801單元N8-01 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明實施例提供了一種基于網(wǎng)絡(luò)爬蟲的知識圖譜數(shù)據(jù)抽取方法、裝置、可讀存儲介質(zhì)及計算設(shè)備,用于實現(xiàn)爬蟲代碼復(fù)用,批量深度自動化爬取網(wǎng)頁數(shù)據(jù),避免頁面變化導(dǎo)致需要大量修改網(wǎng)頁解析的代碼。方法包括:獲取用于爬取數(shù)據(jù)的目標(biāo)網(wǎng)頁;配置所述目標(biāo)網(wǎng)頁的爬取規(guī)則和解析規(guī)則;根據(jù)所述爬取規(guī)則爬取所述目標(biāo)網(wǎng)頁和所述目標(biāo)網(wǎng)頁鏈接的網(wǎng)頁;以及,根據(jù)所述解析規(guī)則獲取所述目標(biāo)網(wǎng)頁和所述目標(biāo)網(wǎng)頁鏈接的網(wǎng)頁中包含的實體信息與關(guān)系信息;根據(jù)所述實體信息與關(guān)系信息生成知識圖譜。 |
