一種HTML文檔信息抽取表達(dá)式的方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201410681853.6 | 申請日 | - |
公開(公告)號 | CN104462268B | 公開(公告)日 | 2017-12-12 |
申請公布號 | CN104462268B | 申請公布日 | 2017-12-12 |
分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 杜衛(wèi)紅;謝立歐 | 申請(專利權(quán))人 | 深圳市比一比網(wǎng)絡(luò)科技有限公司 |
代理機(jī)構(gòu) | 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) | 代理人 | 深圳市比一比網(wǎng)絡(luò)科技有限公司 |
地址 | 518000 廣東省深圳市南山區(qū)同方信息港E棟5樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明適用于搜索引擎領(lǐng)域,提供了一種HTML文檔信息抽取表達(dá)式的方法,所述方法包括:A、接收表達(dá)式并將表達(dá)式拆解成多個子表達(dá)式;B、利用選擇器從HTML文檔中抽取出每個子表達(dá)式數(shù)據(jù)所在的文檔節(jié)點(diǎn);C、從抽取的文檔節(jié)點(diǎn)中抽取出每個表達(dá)式指定屬性的值;D、根據(jù)正則表達(dá)式將抽取的指定屬性的值進(jìn)行正則抽取或替換;E、根據(jù)判斷表達(dá)式配置對指定屬性的值進(jìn)行判斷處理;F、根據(jù)預(yù)設(shè)范圍值保留預(yù)設(shè)范圍值內(nèi)的子表達(dá)式的序號;G、判斷是否有多個子表達(dá)式,多個子表達(dá)式以“與”和“或”的關(guān)系鏈接。通過抽取方法中增加對節(jié)點(diǎn)范圍的順序范圍的表達(dá)和增加對對文本信息進(jìn)行處理的能力,使得抽取到的結(jié)果更精確,本方法簡單、操作方便。 |
