一種頁面資源結(jié)構(gòu)化的方法和裝置
基本信息
申請?zhí)?/td> | CN201510100103.X | 申請日 | - |
公開(公告)號 | CN105989178A | 公開(公告)日 | 2016-10-05 |
申請公布號 | CN105989178A | 申請公布日 | 2016-10-05 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 施宏俊;周建寶;胡大衛(wèi);賈立群;段學(xué)儉;周怡;劉懿;吳棄疾;翁志軒;何勇;楊文華;謝冬華;朱丹瑾;陳力勇;易英華;張少杰;程艷 | 申請(專利權(quán))人 | 上海世紀(jì)出版股份有限公司 |
代理機構(gòu) | - | 代理人 | - |
地址 | 200235 上海市欽州南路81號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種頁面資源結(jié)構(gòu)化的方法和裝置,其包括創(chuàng)建網(wǎng)頁內(nèi)容抓取模塊,獲取網(wǎng)頁對應(yīng)的html文件;定義Schema文件用以規(guī)范結(jié)構(gòu)化后生成的XML結(jié)果文檔;建立標(biāo)簽映射文件,根據(jù)html標(biāo)簽,文字屬性,段落屬性建立與Schema所定義標(biāo)簽的映射。根據(jù)映射關(guān)系進行內(nèi)容識別并生成對應(yīng)的結(jié)構(gòu)化文檔,從而完成頁面資源的結(jié)構(gòu)化。傳統(tǒng)的網(wǎng)頁數(shù)據(jù)采集一般只涉及到網(wǎng)頁元數(shù)據(jù)的采集,相對于傳統(tǒng)的處理方法,該方法及裝置能夠快速、智能、準(zhǔn)確地完成網(wǎng)頁元數(shù)據(jù)及有效內(nèi)容的采集,且將所采集的內(nèi)容片段化,結(jié)構(gòu)化,所涉及的內(nèi)容相比傳統(tǒng)方法更加全面,范圍更廣。 |
