基于AI視覺下的聽寫交互方法、系統(tǒng)、裝置

基本信息

申請(qǐng)?zhí)?/td> CN202010668289.X 申請(qǐng)日 -
公開(公告)號(hào) CN112001394A 公開(公告)日 2020-11-27
申請(qǐng)公布號(hào) CN112001394A 申請(qǐng)公布日 2020-11-27
分類號(hào) G06K9/34(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 高旻昱;范驍駿;侯瑞 申請(qǐng)(專利權(quán))人 上海翎騰智能科技有限公司
代理機(jī)構(gòu) 上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司 代理人 上海翎騰智能科技有限公司
地址 201203上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗(yàn)區(qū)芳春路400號(hào)1幢3層
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于AI視覺下的聽寫交互方法、系統(tǒng)、裝置,方法包括:S100:實(shí)時(shí)獲取采集的目標(biāo)圖像;S200:構(gòu)建并訓(xùn)練多個(gè)卷積深度神經(jīng)網(wǎng)絡(luò)和循環(huán)深度神經(jīng)網(wǎng)絡(luò),或基于自注意力機(jī)制的Transformer深度神經(jīng)網(wǎng)絡(luò)的組合結(jié)構(gòu),利用動(dòng)態(tài)規(guī)劃的公共子串匹配算法對(duì)多個(gè)針對(duì)手寫字體識(shí)別的組合結(jié)構(gòu)輸出結(jié)果進(jìn)行綜合加權(quán)計(jì)算,識(shí)別目標(biāo)圖像中的動(dòng)作信息和文字信息;S300:根據(jù)識(shí)別的動(dòng)作信息,執(zhí)行控制制作聽寫任務(wù)或控制執(zhí)行聽寫任務(wù);S400:控制播放聽寫任務(wù)的聽寫內(nèi)容;S500:控制顯示聽寫任務(wù)中的提示內(nèi)容以及聽寫結(jié)果。本發(fā)明通過多個(gè)卷積深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)手勢(shì)與聽寫設(shè)備進(jìn)行交互,提高識(shí)別的準(zhǔn)確度,加快識(shí)別速度,增強(qiáng)了用戶的使用體驗(yàn)。??