文本類型識別方法及裝置
基本信息
申請?zhí)?/td> | CN202110967393.3 | 申請日 | - |
公開(公告)號 | CN113673243A | 公開(公告)日 | 2021-11-19 |
申請公布號 | CN113673243A | 申請公布日 | 2021-11-19 |
分類號 | G06F40/289(2020.01)I;G06F16/28(2019.01)I;G06F40/216(2020.01)I;G06F40/30(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 楊一帆;劉悅?cè)A | 申請(專利權(quán))人 | 上海浦東華宇信息技術(shù)有限公司 |
代理機(jī)構(gòu) | 北京中索知識產(chǎn)權(quán)代理有限公司 | 代理人 | 胡大成 |
地址 | 201203上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗(yàn)區(qū)祖沖之路899號2幢4層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請?zhí)峁┮环N文本類型識別方法及裝置,用于解決現(xiàn)有技術(shù)中文本類型識別準(zhǔn)確度低的技術(shù)問題。其中,一種文本類型識別方案,包括:獲取語料數(shù)據(jù);去除所述語料數(shù)據(jù)中的無效信息,生成預(yù)處理語料數(shù)據(jù);對所述預(yù)處理語料數(shù)據(jù)的文本內(nèi)容進(jìn)行分詞,生成由若干分詞單元組成的若干句子集合;計算若干句子集合中各句子與模板句的語義相似度,選取語義相似度超過第一判斷閾值的句子,記為關(guān)鍵句;識別關(guān)鍵句中的關(guān)鍵詞組,確定文本類型。本發(fā)明通過識別語料數(shù)據(jù)中的關(guān)鍵句、關(guān)鍵詞,確定文本類型。并且通過去除語料數(shù)據(jù)中的無效信息,避免了無效信息被誤判為關(guān)鍵信息,從而提高了文本類型識別的準(zhǔn)確度。 |
