一種領(lǐng)域術(shù)語抽取的方法
基本信息
申請(qǐng)?zhí)?/td> | CN201410831590.2 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN104598530B | 公開(公告)日 | 2018-06-05 |
申請(qǐng)公布號(hào) | CN104598530B | 申請(qǐng)公布日 | 2018-06-05 |
分類號(hào) | G06F17/30;G06F17/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 江潮;張芃 | 申請(qǐng)(專利權(quán))人 | 八方傳神數(shù)碼科技(武漢)有限公司 |
代理機(jī)構(gòu) | 北京康盛知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司 |
地址 | 430070 湖北省武漢市東湖開發(fā)區(qū)光谷軟件園一期以西、南湖南路以南、光谷軟件園六期2幢5層205號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 一種領(lǐng)域術(shù)語抽取的方法,包括:對(duì)原始語料以語素為單位進(jìn)行任意長度的切分,獲得若干候選術(shù)語,其中,每個(gè)所述候選術(shù)語由至少二個(gè)語素組成;從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語進(jìn)行分析,確定該候選術(shù)語的多個(gè)特征參數(shù);利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語的領(lǐng)域術(shù)語度;抽取所述領(lǐng)域術(shù)語度高于閾值的候選術(shù)語作為新的領(lǐng)域術(shù)語。本發(fā)明通過詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語進(jìn)行充分的分析,保證提取的術(shù)語可靠性和準(zhǔn)確性較高。 |
