一種頁面資源結構化的方法和裝置

基本信息

申請?zhí)?/td> CN201510100103.X 申請日 -
公開(公告)號 CN105989178A 公開(公告)日 2016-10-05
申請公布號 CN105989178A 申請公布日 2016-10-05
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 施宏俊;周建寶;胡大衛(wèi);賈立群;段學儉;周怡;劉懿;吳棄疾;翁志軒;何勇;楊文華;謝冬華;朱丹瑾;陳力勇;易英華;張少杰;程艷 申請(專利權)人 上海世紀出版股份有限公司
代理機構 - 代理人 -
地址 200235 上海市欽州南路81號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種頁面資源結構化的方法和裝置,其包括創(chuàng)建網(wǎng)頁內容抓取模塊,獲取網(wǎng)頁對應的html文件;定義Schema文件用以規(guī)范結構化后生成的XML結果文檔;建立標簽映射文件,根據(jù)html標簽,文字屬性,段落屬性建立與Schema所定義標簽的映射。根據(jù)映射關系進行內容識別并生成對應的結構化文檔,從而完成頁面資源的結構化。傳統(tǒng)的網(wǎng)頁數(shù)據(jù)采集一般只涉及到網(wǎng)頁元數(shù)據(jù)的采集,相對于傳統(tǒng)的處理方法,該方法及裝置能夠快速、智能、準確地完成網(wǎng)頁元數(shù)據(jù)及有效內容的采集,且將所采集的內容片段化,結構化,所涉及的內容相比傳統(tǒng)方法更加全面,范圍更廣。