文本類型識別方法及裝置

基本信息

申請?zhí)?/td> CN202110967393.3 申請日 -
公開(公告)號 CN113673243A 公開(公告)日 2021-11-19
申請公布號 CN113673243A 申請公布日 2021-11-19
分類號 G06F40/289(2020.01)I;G06F16/28(2019.01)I;G06F40/216(2020.01)I;G06F40/30(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 楊一帆;劉悅?cè)A 申請(專利權(quán))人 上海浦東華宇信息技術(shù)有限公司
代理機(jī)構(gòu) 北京中索知識產(chǎn)權(quán)代理有限公司 代理人 胡大成
地址 201203上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗(yàn)區(qū)祖沖之路899號2幢4層
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┮环N文本類型識別方法及裝置,用于解決現(xiàn)有技術(shù)中文本類型識別準(zhǔn)確度低的技術(shù)問題。其中,一種文本類型識別方案,包括:獲取語料數(shù)據(jù);去除所述語料數(shù)據(jù)中的無效信息,生成預(yù)處理語料數(shù)據(jù);對所述預(yù)處理語料數(shù)據(jù)的文本內(nèi)容進(jìn)行分詞,生成由若干分詞單元組成的若干句子集合;計算若干句子集合中各句子與模板句的語義相似度,選取語義相似度超過第一判斷閾值的句子,記為關(guān)鍵句;識別關(guān)鍵句中的關(guān)鍵詞組,確定文本類型。本發(fā)明通過識別語料數(shù)據(jù)中的關(guān)鍵句、關(guān)鍵詞,確定文本類型。并且通過去除語料數(shù)據(jù)中的無效信息,避免了無效信息被誤判為關(guān)鍵信息,從而提高了文本類型識別的準(zhǔn)確度。