一種文本標注方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN201911354042.4 | 申請日 | - |
公開(公告)號 | CN111125312A | 公開(公告)日 | 2020-05-08 |
申請公布號 | CN111125312A | 申請公布日 | 2020-05-08 |
分類號 | G06F16/33;G06F16/335;G06F40/205;G06F40/117 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 劉寶強;肖云飛 | 申請(專利權(quán))人 | 深圳數(shù)闊信息技術(shù)有限公司 |
代理機構(gòu) | 深圳市匯信知識產(chǎn)權(quán)代理有限公司 | 代理人 | 深圳視界信息技術(shù)有限公司 |
地址 | 518000 廣東省深圳市南山區(qū)粵海街道科技園社區(qū)高新中一道長園新材料港10棟1樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,公開了一種文本標注方法及系統(tǒng),使用自定義規(guī)則過濾無效文本;對有效文本進行拆分,具體細化到詞、短句;根據(jù)細化的詞、短語劃分相應(yīng)的屬性標簽、情感;對相似的屬性標簽進行;使屬性標簽、情感形成一種關(guān)聯(lián)關(guān)系,從而生成供模型進行有監(jiān)督學(xué)習(xí)的有效數(shù)據(jù)。文本標注系統(tǒng)包括數(shù)據(jù)過濾模塊、標注模塊、數(shù)據(jù)跟蹤統(tǒng)計模塊、數(shù)據(jù)審閱模塊、用戶配置模塊及自啟動模型訓(xùn)練模塊。本發(fā)明提供的文本標注方法及系統(tǒng),可適用于各種文本標注場景,提供更加簡便、高效的標注方式;本發(fā)明簡化了用戶的操作與信息過濾過程;在文本輸入到生成模型的過程上中,形成流水線作業(yè),提升整體工作效率。 |
