網(wǎng)頁(yè)正文的識(shí)別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202110823007.3 申請(qǐng)日 -
公開(公告)號(hào) CN113537091A 公開(公告)日 2021-10-22
申請(qǐng)公布號(hào) CN113537091A 申請(qǐng)公布日 2021-10-22
分類號(hào) G06K9/00(2006.01)I;G06K9/34(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 余良 申請(qǐng)(專利權(quán))人 東莞盟大集團(tuán)有限公司
代理機(jī)構(gòu) 廣州三環(huán)專利商標(biāo)代理有限公司 代理人 張艷美;劉光明
地址 523000廣東省東莞市南城區(qū)周溪隆溪路5號(hào)高盛科技園二期之高盛科技大廈第7層701-703室
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開了一種網(wǎng)頁(yè)正文的識(shí)別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),其中方法包括:獲取待分析網(wǎng)頁(yè)文本,待分析網(wǎng)頁(yè)文本包括字符行和空白行,單個(gè)空白行和多個(gè)連續(xù)排列的空白行視作間隔,間隔對(duì)應(yīng)的空白行數(shù)量表示該間隔的長(zhǎng)度;根據(jù)待分析網(wǎng)頁(yè)文本的所有間隔計(jì)算得到一參考間隔長(zhǎng)度;利用參考間隔長(zhǎng)度過濾待分析網(wǎng)頁(yè)文本的所有間隔,以保留長(zhǎng)度大于參考間隔長(zhǎng)度的間隔;窮舉搜索任意兩行之間對(duì)應(yīng)的字符數(shù)和過濾后的所有間隔,并根據(jù)各搜索區(qū)域?qū)?yīng)的字符數(shù)和過濾后的所有間隔確定網(wǎng)頁(yè)正文。本申請(qǐng)具有較高識(shí)別準(zhǔn)確率,還能適用于多種類型的網(wǎng)頁(yè)。