一種HTML文檔信息抽取表達(dá)式的方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201410681853.6 申請日 -
公開(公告)號 CN104462268B 公開(公告)日 2017-12-12
申請公布號 CN104462268B 申請公布日 2017-12-12
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 杜衛(wèi)紅;謝立歐 申請(專利權(quán))人 深圳市比一比網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) 代理人 深圳市比一比網(wǎng)絡(luò)科技有限公司
地址 518000 廣東省深圳市南山區(qū)同方信息港E棟5樓
法律狀態(tài) -

摘要

摘要 本發(fā)明適用于搜索引擎領(lǐng)域,提供了一種HTML文檔信息抽取表達(dá)式的方法,所述方法包括:A、接收表達(dá)式并將表達(dá)式拆解成多個子表達(dá)式;B、利用選擇器從HTML文檔中抽取出每個子表達(dá)式數(shù)據(jù)所在的文檔節(jié)點(diǎn);C、從抽取的文檔節(jié)點(diǎn)中抽取出每個表達(dá)式指定屬性的值;D、根據(jù)正則表達(dá)式將抽取的指定屬性的值進(jìn)行正則抽取或替換;E、根據(jù)判斷表達(dá)式配置對指定屬性的值進(jìn)行判斷處理;F、根據(jù)預(yù)設(shè)范圍值保留預(yù)設(shè)范圍值內(nèi)的子表達(dá)式的序號;G、判斷是否有多個子表達(dá)式,多個子表達(dá)式以“與”和“或”的關(guān)系鏈接。通過抽取方法中增加對節(jié)點(diǎn)范圍的順序范圍的表達(dá)和增加對對文本信息進(jìn)行處理的能力,使得抽取到的結(jié)果更精確,本方法簡單、操作方便。