基于AI視覺下的聽寫交互方法、系統(tǒng)、裝置
基本信息
申請(qǐng)?zhí)?/td> | CN202010668289.X | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112001394A | 公開(公告)日 | 2020-11-27 |
申請(qǐng)公布號(hào) | CN112001394A | 申請(qǐng)公布日 | 2020-11-27 |
分類號(hào) | G06K9/34(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 高旻昱;范驍駿;侯瑞 | 申請(qǐng)(專利權(quán))人 | 上海翎騰智能科技有限公司 |
代理機(jī)構(gòu) | 上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 上海翎騰智能科技有限公司 |
地址 | 201203上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗(yàn)區(qū)芳春路400號(hào)1幢3層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種基于AI視覺下的聽寫交互方法、系統(tǒng)、裝置,方法包括:S100:實(shí)時(shí)獲取采集的目標(biāo)圖像;S200:構(gòu)建并訓(xùn)練多個(gè)卷積深度神經(jīng)網(wǎng)絡(luò)和循環(huán)深度神經(jīng)網(wǎng)絡(luò),或基于自注意力機(jī)制的Transformer深度神經(jīng)網(wǎng)絡(luò)的組合結(jié)構(gòu),利用動(dòng)態(tài)規(guī)劃的公共子串匹配算法對(duì)多個(gè)針對(duì)手寫字體識(shí)別的組合結(jié)構(gòu)輸出結(jié)果進(jìn)行綜合加權(quán)計(jì)算,識(shí)別目標(biāo)圖像中的動(dòng)作信息和文字信息;S300:根據(jù)識(shí)別的動(dòng)作信息,執(zhí)行控制制作聽寫任務(wù)或控制執(zhí)行聽寫任務(wù);S400:控制播放聽寫任務(wù)的聽寫內(nèi)容;S500:控制顯示聽寫任務(wù)中的提示內(nèi)容以及聽寫結(jié)果。本發(fā)明通過多個(gè)卷積深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)手勢(shì)與聽寫設(shè)備進(jìn)行交互,提高識(shí)別的準(zhǔn)確度,加快識(shí)別速度,增強(qiáng)了用戶的使用體驗(yàn)。?? |
