分類標簽數(shù)據(jù)獲取方法以及裝置
基本信息
申請?zhí)?/td> | CN201710147921.4 | 申請日 | - |
公開(公告)號 | CN106909694A | 公開(公告)日 | 2017-06-30 |
申請公布號 | CN106909694A | 申請公布日 | 2017-06-30 |
分類號 | G06F17/30 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 鄭巨隆;宋亮;胡曉峰 | 申請(專利權(quán))人 | 普玄物聯(lián)科技(杭州)有限公司 |
代理機構(gòu) | 北京超凡志成知識產(chǎn)權(quán)代理事務所(普通合伙) | 代理人 | 杭州普玄科技有限公司 |
地址 | 310000 浙江省杭州市濱江區(qū)長河街道濱盛路1766號1006室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種分類標簽數(shù)據(jù)獲取方法以及裝置,涉及移動互聯(lián)網(wǎng)領(lǐng)域,所述方法包括:電子設備在基于網(wǎng)絡返回的頁面數(shù)據(jù)渲染得到的界面中執(zhí)行預設的操作步驟,將執(zhí)行所述預設的操作步驟后在所述界面中顯示的數(shù)據(jù)以圖片進行保存;識別所述圖片,得到所述圖片中的文本信息;基于獲取的關(guān)鍵詞信息,得到所述文本信息中與所述關(guān)鍵詞信息相關(guān)的抽取信息;接收用戶輸入的糾錯信息,基于所述糾錯信息對所述抽取信息進行糾錯,得到糾錯后的抽取信息作為目標文檔;基于預先建立的主題分類模型,計算得到所述目標文檔的分類標簽。該方法避免了運用傳統(tǒng)爬蟲程序進行分類標簽數(shù)據(jù)獲取時,需要花費很長時間來破解一個反爬蟲方案,而且可能無法破解的問題。 |
