一種頁面資源結構化的方法和裝置
基本信息
申請?zhí)?/td> | CN201510100103.X | 申請日 | - |
公開(公告)號 | CN105989178A | 公開(公告)日 | 2016-10-05 |
申請公布號 | CN105989178A | 申請公布日 | 2016-10-05 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 施宏俊;周建寶;胡大衛(wèi);賈立群;段學儉;周怡;劉懿;吳棄疾;翁志軒;何勇;楊文華;謝冬華;朱丹瑾;陳力勇;易英華;張少杰;程艷 | 申請(專利權)人 | 上海世紀出版股份有限公司 |
代理機構 | - | 代理人 | - |
地址 | 200235 上海市欽州南路81號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種頁面資源結構化的方法和裝置,其包括創(chuàng)建網(wǎng)頁內容抓取模塊,獲取網(wǎng)頁對應的html文件;定義Schema文件用以規(guī)范結構化后生成的XML結果文檔;建立標簽映射文件,根據(jù)html標簽,文字屬性,段落屬性建立與Schema所定義標簽的映射。根據(jù)映射關系進行內容識別并生成對應的結構化文檔,從而完成頁面資源的結構化。傳統(tǒng)的網(wǎng)頁數(shù)據(jù)采集一般只涉及到網(wǎng)頁元數(shù)據(jù)的采集,相對于傳統(tǒng)的處理方法,該方法及裝置能夠快速、智能、準確地完成網(wǎng)頁元數(shù)據(jù)及有效內容的采集,且將所采集的內容片段化,結構化,所涉及的內容相比傳統(tǒng)方法更加全面,范圍更廣。 |
