一種基于DOM樹的全類型文本替換方法、系統(tǒng)、裝置及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN201910963934.8 申請日 -
公開(公告)號 CN110765740A 公開(公告)日 2020-02-07
申請公布號 CN110765740A 申請公布日 2020-02-07
分類號 G06F40/14;G06F40/154;G06F16/951;G06K9/20;G06K9/34;G06K9/54;G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 杜衛(wèi)紅;謝立歐;蔣立民;鄭永樂;詹錦州 申請(專利權(quán))人 深圳市比一比網(wǎng)絡(luò)科技有限公司
代理機構(gòu) 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) 代理人 深圳市比一比網(wǎng)絡(luò)科技有限公司
地址 518000 廣東省深圳市南山區(qū)科苑北路訊美科技大廈1棟3樓306室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于DOM樹的全類型文本替換方法、系統(tǒng)、裝置及存儲介質(zhì),該方法包括:掃描網(wǎng)站的DOM樹,獲取網(wǎng)站的靜態(tài)文件以及圖片,由網(wǎng)站的靜態(tài)文件中得到字體映射關(guān)系文件;將字體文件中每個字體單元進行轉(zhuǎn)換為圖片;對字體文件轉(zhuǎn)換后的圖片進行圖像識別,獲取圖片內(nèi)實際的文字,建立網(wǎng)站文字與實際文字的映射關(guān)系以及提取網(wǎng)站圖片的內(nèi)容;獲取網(wǎng)站內(nèi)的源碼,將源碼內(nèi)的文字根據(jù)映射關(guān)系轉(zhuǎn)換為實際文字,將網(wǎng)站圖片進行預篩選,對網(wǎng)站的數(shù)據(jù)圖片進行文本識別,提取圖片內(nèi)有效信息,從而做到全文本替換。本發(fā)明的有益效果是:本發(fā)明通過多線程將每個字體轉(zhuǎn)換為圖片格式,通過圖像識別建立真實文字與源碼文字的映射關(guān)系,進行大量訓練文字識別模型,可以精確地獲取網(wǎng)站顯示的內(nèi)容。