基于分布式平臺的行業(yè)文本實體提取方法
基本信息
申請?zhí)?/td> | CN201710902720.0 | 申請日 | - |
公開(公告)號 | CN107908642A | 公開(公告)日 | 2018-04-13 |
申請公布號 | CN107908642A | 申請公布日 | 2018-04-13 |
分類號 | G06F17/30;G06F17/27 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 武克杰;周書勇 | 申請(專利權)人 | 江蘇華通晟云科技有限公司 |
代理機構 | 蘇州創(chuàng)元專利商標事務所有限公司 | 代理人 | 范晴;丁浩秋 |
地址 | 215000 江蘇省蘇州市工業(yè)園區(qū)星湖街328號創(chuàng)意產業(yè)園2-B803 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于分布式平臺的行業(yè)文本實體提取方法,包括:采用深度學習神經網(wǎng)絡訓練文本數(shù)據(jù)集得到關系特征模型;將提取的關系特征生成多個彈性分布式關系特征數(shù)據(jù)集RDD;將RDD中的數(shù)據(jù)集通過改進的非線性SVM分類算法訓練得到的類別特征模型提取類別特征;根據(jù)提取的類別特征找到對應語境實體模型,并通過訓練好的實體模型提取對應類別特征的文本中的實體數(shù)據(jù);判斷相應語境文的本數(shù)量是否超過設定閾值,若超過閾值時,重新訓練該語境實體模型,利用重新訓練的實體模型提取對應類別特征的文本中的實體數(shù)據(jù),否則,保存文本實體特征和文本數(shù)據(jù)??梢蕴幚聿煌Z境下的文本特征實體,有效提高了實體提取的效率以及提取實體準確率。 |
