一種頁面資源結(jié)構(gòu)化的方法和裝置

基本信息

申請?zhí)?/td> CN201510100103.X 申請日 -
公開(公告)號 CN105989178A 公開(公告)日 2016-10-05
申請公布號 CN105989178A 申請公布日 2016-10-05
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 施宏俊;周建寶;胡大衛(wèi);賈立群;段學(xué)儉;周怡;劉懿;吳棄疾;翁志軒;何勇;楊文華;謝冬華;朱丹瑾;陳力勇;易英華;張少杰;程艷 申請(專利權(quán))人 上海世紀(jì)出版股份有限公司
代理機構(gòu) - 代理人 -
地址 200235 上海市欽州南路81號
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種頁面資源結(jié)構(gòu)化的方法和裝置,其包括創(chuàng)建網(wǎng)頁內(nèi)容抓取模塊,獲取網(wǎng)頁對應(yīng)的html文件;定義Schema文件用以規(guī)范結(jié)構(gòu)化后生成的XML結(jié)果文檔;建立標(biāo)簽映射文件,根據(jù)html標(biāo)簽,文字屬性,段落屬性建立與Schema所定義標(biāo)簽的映射。根據(jù)映射關(guān)系進行內(nèi)容識別并生成對應(yīng)的結(jié)構(gòu)化文檔,從而完成頁面資源的結(jié)構(gòu)化。傳統(tǒng)的網(wǎng)頁數(shù)據(jù)采集一般只涉及到網(wǎng)頁元數(shù)據(jù)的采集,相對于傳統(tǒng)的處理方法,該方法及裝置能夠快速、智能、準(zhǔn)確地完成網(wǎng)頁元數(shù)據(jù)及有效內(nèi)容的采集,且將所采集的內(nèi)容片段化,結(jié)構(gòu)化,所涉及的內(nèi)容相比傳統(tǒng)方法更加全面,范圍更廣。