實(shí)體詞識(shí)別方法及裝置
基本信息
申請(qǐng)?zhí)?/td> | CN201710580389.5 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN107480197B | 公開(kāi)(公告)日 | 2020-12-18 |
申請(qǐng)公布號(hào) | CN107480197B | 申請(qǐng)公布日 | 2020-12-18 |
分類號(hào) | G06F16/35;G06F16/36;G06F16/25;G06F40/30 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 晉彤;李永康 | 申請(qǐng)(專利權(quán))人 | 云潤(rùn)大數(shù)據(jù)服務(wù)有限公司 |
代理機(jī)構(gòu) | - | 代理人 | - |
地址 | 510665 廣東省廣州市天河區(qū)天河軟件園高普路1023號(hào)5303室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種實(shí)體詞識(shí)別方法,包括步驟:收集結(jié)構(gòu)化數(shù)據(jù),通過(guò)大數(shù)據(jù)ETL技術(shù)對(duì)所述結(jié)構(gòu)化數(shù)據(jù)進(jìn)行初步過(guò)濾和精簡(jiǎn)后生成若干個(gè)領(lǐng)域的語(yǔ)料庫(kù);將每一領(lǐng)域的語(yǔ)料進(jìn)行訓(xùn)練后生成對(duì)應(yīng)領(lǐng)域的多元實(shí)體詞庫(kù),通過(guò)大量文章對(duì)每一領(lǐng)域的多元實(shí)體詞庫(kù)進(jìn)行驗(yàn)證;接收輸入的新文章,根據(jù)所述新文章中實(shí)體詞之間的句法依存關(guān)系和語(yǔ)法依存關(guān)系,建立詞性識(shí)別模型,對(duì)所述新文章中的實(shí)體詞的詞性進(jìn)行初步識(shí)別;基于所述實(shí)體詞的詞性,對(duì)所述根據(jù)已驗(yàn)證的所述多元實(shí)體詞庫(kù)對(duì)所述新文章的實(shí)體詞的類型進(jìn)行深度識(shí)別,將新識(shí)別的所述實(shí)體詞添加到所述多元實(shí)體詞庫(kù)中,有效解決了現(xiàn)有技術(shù)實(shí)體詞識(shí)別效率低和成本高的問(wèn)題,能自動(dòng)識(shí)別實(shí)體詞并更新詞庫(kù)。 |
