一種從網(wǎng)頁中抽取評論內(nèi)容的方法和裝置
基本信息
申請?zhí)?/td> | CN200910244539.0 | 申請日 | - |
公開(公告)號 | CN102117289B | 公開(公告)日 | 2012-10-10 |
申請公布號 | CN102117289B | 申請公布日 | 2012-10-10 |
分類號 | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 劉偉;嚴(yán)華梁;萬小軍;楊建武;肖建國 | 申請(專利權(quán))人 | 北京方正電子政務(wù)信息科技有限公司 |
代理機(jī)構(gòu) | 北京同達(dá)信恒知識產(chǎn)權(quán)代理有限公司 | 代理人 | 北京大學(xué);北大方正集團(tuán)有限公司;北京方正電子政務(wù)信息科技有限公司;北京北大方正電子有限公司 |
地址 | 100871 北京市海淀區(qū)頤和園路5號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種從網(wǎng)頁中抽取評論內(nèi)容的方法和裝置,涉及信息處理技術(shù),通過建立評論頁面的DOM樹,并選擇符合評論區(qū)抽取規(guī)則的子樹抽取出評論區(qū),再利用評論記錄間的結(jié)構(gòu)相似性,抽取出評論區(qū)中的評論記錄,利用包含評論內(nèi)容的子樹的差異性,選擇標(biāo)準(zhǔn)差最大的子樹作為包含評論內(nèi)容的子樹,最后選取穩(wěn)定性最小的一條路徑中,穩(wěn)定性差絕對值最大的相鄰節(jié)點(diǎn)中的孩子節(jié)點(diǎn)作為根節(jié)點(diǎn),這個(gè)子樹就是要抽取的評論內(nèi)容。由于利用了評論內(nèi)容的無結(jié)構(gòu)特性來進(jìn)行抽取,而不是根據(jù)網(wǎng)頁的模板進(jìn)行抽取,所以網(wǎng)頁的不同不影響抽取的準(zhǔn)確性,并且不需要根據(jù)網(wǎng)頁的模板進(jìn)行復(fù)雜的配置,并通過計(jì)算去除了噪聲信息,提高了從網(wǎng)頁中抽取評論內(nèi)容的效率和準(zhǔn)確性。 |
