一種HTML文檔信息抽取表達式的方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201410681853.6 | 申請日 | - |
公開(公告)號 | CN104462268A | 公開(公告)日 | 2015-03-25 |
申請公布號 | CN104462268A | 申請公布日 | 2015-03-25 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 杜衛(wèi)紅;謝立歐 | 申請(專利權(quán))人 | 深圳市比一比網(wǎng)絡科技有限公司 |
代理機構(gòu) | 深圳市科吉華烽知識產(chǎn)權(quán)事務所(普通合伙) | 代理人 | 深圳市比一比網(wǎng)絡科技有限公司 |
地址 | 518000 廣東省深圳市南山區(qū)同方信息港E棟5樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明適用于搜索引擎領(lǐng)域,提供了一種HTML文檔信息抽取表達式的方法,所述方法包括:A、接收表達式并將表達式拆解成多個子表達式;B、利用選擇器從HTML文檔中抽取出每個子表達式數(shù)據(jù)所在的文檔節(jié)點;C、從抽取的文檔節(jié)點中抽取出每個表達式指定屬性的值;D、根據(jù)正則表達式將抽取的指定屬性的值進行正則抽取或替換;E、根據(jù)判斷表達式配置對指定屬性的值進行判斷處理;F、根據(jù)預設范圍值保留預設范圍值內(nèi)的子表達式的序號;G、判斷是否有多個子表達式,多個子表達式以“與”和“或”的關(guān)系鏈接。通過抽取方法中增加對節(jié)點范圍的順序范圍的表達和增加對對文本信息進行處理的能力,使得抽取到的結(jié)果更精確,本方法簡單、操作方便。 |
