基于分布式平臺的行業(yè)文本實體提取方法

基本信息

申請?zhí)?/td> CN201710902720.0 申請日 -
公開(公告)號 CN107908642A 公開(公告)日 2018-04-13
申請公布號 CN107908642A 申請公布日 2018-04-13
分類號 G06F17/30;G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 武克杰;周書勇 申請(專利權)人 江蘇華通晟云科技有限公司
代理機構 蘇州創(chuàng)元專利商標事務所有限公司 代理人 范晴;丁浩秋
地址 215000 江蘇省蘇州市工業(yè)園區(qū)星湖街328號創(chuàng)意產業(yè)園2-B803
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于分布式平臺的行業(yè)文本實體提取方法,包括:采用深度學習神經網(wǎng)絡訓練文本數(shù)據(jù)集得到關系特征模型;將提取的關系特征生成多個彈性分布式關系特征數(shù)據(jù)集RDD;將RDD中的數(shù)據(jù)集通過改進的非線性SVM分類算法訓練得到的類別特征模型提取類別特征;根據(jù)提取的類別特征找到對應語境實體模型,并通過訓練好的實體模型提取對應類別特征的文本中的實體數(shù)據(jù);判斷相應語境文的本數(shù)量是否超過設定閾值,若超過閾值時,重新訓練該語境實體模型,利用重新訓練的實體模型提取對應類別特征的文本中的實體數(shù)據(jù),否則,保存文本實體特征和文本數(shù)據(jù)??梢蕴幚聿煌Z境下的文本特征實體,有效提高了實體提取的效率以及提取實體準確率。