一種基于視覺效果的正文識(shí)別算法

基本信息

申請(qǐng)?zhí)?/td> CN201410234558.6 申請(qǐng)日 -
公開(公告)號(hào) CN105302805A 公開(公告)日 2016-02-03
申請(qǐng)公布號(hào) CN105302805A 申請(qǐng)公布日 2016-02-03
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 呂永強(qiáng) 申請(qǐng)(專利權(quán))人 廣州市邦富軟件有限公司
代理機(jī)構(gòu) - 代理人 -
地址 510663 廣東省廣州市天河區(qū)天河軟件園高唐新建區(qū)廣州互聯(lián)網(wǎng)產(chǎn)業(yè)園1號(hào)樓第五層A501-A510房
法律狀態(tài) -

摘要

摘要 一種基于視覺效果的正文識(shí)別算法,所述算法步驟包括:(1)取出一篇網(wǎng)頁,提取標(biāo)題和正文;(2)提取該頁面的視覺表達(dá)部分,如HTML?Tag、JS和CSS;(3)對(duì)頁面中的有限狀態(tài)機(jī)進(jìn)行分析,獲得部分特殊視覺效果信息;(4)利用垂直渲染引擎計(jì)算出字體部分的js和css的效果屬性;(5)根據(jù)步驟2、3和4,得到以PT為單位的整篇文章的字體尺寸列表;(6)通過字體尺寸列表獲得字體權(quán)重排序;(7)通過字體顏色與頁面對(duì)比,獲得字體顏色權(quán)重列表;(8)通過字符串密度獲得密度權(quán)重列表;(9)根據(jù)步驟6、7和8進(jìn)行綜合運(yùn)算,獲得整個(gè)網(wǎng)頁表達(dá)的語義與重心。