分類標(biāo)簽數(shù)據(jù)獲取方法以及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201710147921.4 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN106909694B | 公開(kāi)(公告)日 | 2020-01-17 |
申請(qǐng)公布號(hào) | CN106909694B | 申請(qǐng)公布日 | 2020-01-17 |
分類號(hào) | G06F16/953;G06F16/583 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄭巨隆;宋亮;胡曉峰 | 申請(qǐng)(專利權(quán))人 | 普玄物聯(lián)科技(杭州)有限公司 |
代理機(jī)構(gòu) | 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 杭州普玄科技有限公司 |
地址 | 310000 浙江省杭州市濱江區(qū)長(zhǎng)河街道濱盛路1766號(hào)1006室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種分類標(biāo)簽數(shù)據(jù)獲取方法以及裝置,涉及移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,所述方法包括:電子設(shè)備在基于網(wǎng)絡(luò)返回的頁(yè)面數(shù)據(jù)渲染得到的界面中執(zhí)行預(yù)設(shè)的操作步驟,將執(zhí)行所述預(yù)設(shè)的操作步驟后在所述界面中顯示的數(shù)據(jù)以圖片進(jìn)行保存;識(shí)別所述圖片,得到所述圖片中的文本信息;基于獲取的關(guān)鍵詞信息,得到所述文本信息中與所述關(guān)鍵詞信息相關(guān)的抽取信息;接收用戶輸入的糾錯(cuò)信息,基于所述糾錯(cuò)信息對(duì)所述抽取信息進(jìn)行糾錯(cuò),得到糾錯(cuò)后的抽取信息作為目標(biāo)文檔;基于預(yù)先建立的主題分類模型,計(jì)算得到所述目標(biāo)文檔的分類標(biāo)簽。該方法避免了運(yùn)用傳統(tǒng)爬蟲(chóng)程序進(jìn)行分類標(biāo)簽數(shù)據(jù)獲取時(shí),需要花費(fèi)很長(zhǎng)時(shí)間來(lái)破解一個(gè)反爬蟲(chóng)方案,而且可能無(wú)法破解的問(wèn)題。 |
