一種基于DOM樹的全類型文本替換方法、系統(tǒng)、裝置及存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN201910963934.8 | 申請日 | - |
公開(公告)號 | CN110765740A | 公開(公告)日 | 2020-02-07 |
申請公布號 | CN110765740A | 申請公布日 | 2020-02-07 |
分類號 | G06F40/14;G06F40/154;G06F16/951;G06K9/20;G06K9/34;G06K9/54;G06N3/04;G06N3/08 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 杜衛(wèi)紅;謝立歐;蔣立民;鄭永樂;詹錦州 | 申請(專利權(quán))人 | 深圳市比一比網(wǎng)絡(luò)科技有限公司 |
代理機構(gòu) | 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) | 代理人 | 深圳市比一比網(wǎng)絡(luò)科技有限公司 |
地址 | 518000 廣東省深圳市南山區(qū)科苑北路訊美科技大廈1棟3樓306室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于DOM樹的全類型文本替換方法、系統(tǒng)、裝置及存儲介質(zhì),該方法包括:掃描網(wǎng)站的DOM樹,獲取網(wǎng)站的靜態(tài)文件以及圖片,由網(wǎng)站的靜態(tài)文件中得到字體映射關(guān)系文件;將字體文件中每個字體單元進行轉(zhuǎn)換為圖片;對字體文件轉(zhuǎn)換后的圖片進行圖像識別,獲取圖片內(nèi)實際的文字,建立網(wǎng)站文字與實際文字的映射關(guān)系以及提取網(wǎng)站圖片的內(nèi)容;獲取網(wǎng)站內(nèi)的源碼,將源碼內(nèi)的文字根據(jù)映射關(guān)系轉(zhuǎn)換為實際文字,將網(wǎng)站圖片進行預篩選,對網(wǎng)站的數(shù)據(jù)圖片進行文本識別,提取圖片內(nèi)有效信息,從而做到全文本替換。本發(fā)明的有益效果是:本發(fā)明通過多線程將每個字體轉(zhuǎn)換為圖片格式,通過圖像識別建立真實文字與源碼文字的映射關(guān)系,進行大量訓練文字識別模型,可以精確地獲取網(wǎng)站顯示的內(nèi)容。 |
