一種領(lǐng)域術(shù)語抽取的方法
基本信息
申請?zhí)?/td> | CN201410831590.2 | 申請日 | - |
公開(公告)號 | CN104598530B | 公開(公告)日 | 2018-06-05 |
申請公布號 | CN104598530B | 申請公布日 | 2018-06-05 |
分類號 | G06F17/30;G06F17/27 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 江潮;張芃 | 申請(專利權(quán))人 | 八方傳神數(shù)碼科技(武漢)有限公司 |
代理機(jī)構(gòu) | 北京康盛知識產(chǎn)權(quán)代理有限公司 | 代理人 | 語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司 |
地址 | 430070 湖北省武漢市東湖開發(fā)區(qū)光谷軟件園一期以西、南湖南路以南、光谷軟件園六期2幢5層205號 | ||
法律狀態(tài) | - |
摘要
摘要 | 一種領(lǐng)域術(shù)語抽取的方法,包括:對原始語料以語素為單位進(jìn)行任意長度的切分,獲得若干候選術(shù)語,其中,每個所述候選術(shù)語由至少二個語素組成;從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個維度對每個所述候選術(shù)語進(jìn)行分析,確定該候選術(shù)語的多個特征參數(shù);利用確定的所述多個特征參數(shù),計算出該候選術(shù)語的領(lǐng)域術(shù)語度;抽取所述領(lǐng)域術(shù)語度高于閾值的候選術(shù)語作為新的領(lǐng)域術(shù)語。本發(fā)明通過詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對候選術(shù)語進(jìn)行充分的分析,保證提取的術(shù)語可靠性和準(zhǔn)確性較高。 |
