基于分布式平臺(tái)的行業(yè)文本實(shí)體提取方法

基本信息

申請(qǐng)?zhí)?/td> CN201710902720.0 申請(qǐng)日 -
公開(公告)號(hào) CN107908642B 公開(公告)日 2021-11-12
申請(qǐng)公布號(hào) CN107908642B 申請(qǐng)公布日 2021-11-12
分類號(hào) G06F16/35(2019.01)I;G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 武克杰;周書勇 申請(qǐng)(專利權(quán))人 江蘇華通晟云科技有限公司
代理機(jī)構(gòu) 蘇州創(chuàng)元專利商標(biāo)事務(wù)所有限公司 代理人 范晴;丁浩秋
地址 215000江蘇省蘇州市工業(yè)園區(qū)星湖街328號(hào)創(chuàng)意產(chǎn)業(yè)園2-B803
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于分布式平臺(tái)的行業(yè)文本實(shí)體提取方法,包括:采用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練文本數(shù)據(jù)集得到關(guān)系特征模型;將提取的關(guān)系特征生成多個(gè)彈性分布式關(guān)系特征數(shù)據(jù)集RDD;將RDD中的數(shù)據(jù)集通過改進(jìn)的非線性SVM分類算法訓(xùn)練得到的類別特征模型提取類別特征;根據(jù)提取的類別特征找到對(duì)應(yīng)語境實(shí)體模型,并通過訓(xùn)練好的實(shí)體模型提取對(duì)應(yīng)類別特征的文本中的實(shí)體數(shù)據(jù);判斷相應(yīng)語境文的本數(shù)量是否超過設(shè)定閾值,若超過閾值時(shí),重新訓(xùn)練該語境實(shí)體模型,利用重新訓(xùn)練的實(shí)體模型提取對(duì)應(yīng)類別特征的文本中的實(shí)體數(shù)據(jù),否則,保存文本實(shí)體特征和文本數(shù)據(jù)??梢蕴幚聿煌Z境下的文本特征實(shí)體,有效提高了實(shí)體提取的效率以及提取實(shí)體準(zhǔn)確率。