一種基于機器學(xué)習(xí)的文章斷句方法
基本信息
申請?zhí)?/td> | CN202010232911.2 | 申請日 | - |
公開(公告)號 | CN111401004A | 公開(公告)日 | 2020-07-10 |
申請公布號 | CN111401004A | 申請公布日 | 2020-07-10 |
分類號 | G06F40/131(2020.01)I;G06N20/00(2019.01)I | 分類 | - |
發(fā)明人 | 李鑫;沈偉;鮑琦 | 申請(專利權(quán))人 | 蘇州機數(shù)芯微科技有限公司 |
代理機構(gòu) | 合肥市長遠專利代理事務(wù)所(普通合伙) | 代理人 | 蘇州機數(shù)芯微科技有限公司 |
地址 | 215000江蘇省蘇州市蘇州工業(yè)園區(qū)金雞湖大道99號蘇州納米城1幢505-3室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出的一種基于機器學(xué)習(xí)的文章斷句方法,首先獲取文本中的分隔符號,提取各分隔符號以及分隔符號兩側(cè)的相鄰詞語形成特征標記;將文本的特征標記輸入預(yù)設(shè)的切分模型,通過切分模型從特征標記中篩選有效分隔符合并輸出;然后根據(jù)有效分割符號獲得文本斷句結(jié)果。本發(fā)明中,切分模型的輸入為特征標記,特征標記的提取簡化了切分模型對待斷句文本的前期處理,使得切分模型的輸入更加簡潔并具有針對性,從而提高了斷句效率。本發(fā)明向開發(fā)者和科研人員提供了相應(yīng)的工具對化學(xué)專業(yè)領(lǐng)域的文檔進行分句以保證數(shù)據(jù)處理后續(xù)步驟的順利運行。?? |
