一種面向?qū)W術(shù)論文的術(shù)語抽取方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201610631256.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN106294320B | 公開(公告)日 | 2019-04-12 |
申請(qǐng)公布號(hào) | CN106294320B | 申請(qǐng)公布日 | 2019-04-12 |
分類號(hào) | G06F17/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄭勝;蔣丹;徐濤;張勝;周可;夏明 | 申請(qǐng)(專利權(quán))人 | 武漢數(shù)為科技有限公司 |
代理機(jī)構(gòu) | 武漢東喻專利代理事務(wù)所(普通合伙) | 代理人 | 方可 |
地址 | 430074 湖北省武漢市東湖高新區(qū)光谷大道3號(hào)未來之光3棟11層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種面向?qū)W術(shù)論文的術(shù)語抽取方法及系統(tǒng),對(duì)學(xué)術(shù)論文語料庫進(jìn)行預(yù)處理,包括文本塊標(biāo)注、文本塊篩選、分詞及詞性標(biāo)注、噪聲詞去除;對(duì)標(biāo)題、摘要、關(guān)鍵字文本塊分別行候選術(shù)語抽取,形成候選術(shù)語集;對(duì)候選術(shù)語集中的單詞型術(shù)語和復(fù)合詞型術(shù)語分別進(jìn)行篩選過濾,得到新的候選術(shù)語集;利用層次分析法根據(jù)候選術(shù)語的位置信息確定各個(gè)位置的權(quán)重,并進(jìn)行綜合評(píng)分,并根據(jù)評(píng)分對(duì)候選術(shù)語進(jìn)行排序,取TopN或者評(píng)分大于閾值的候選術(shù)語作為抽取出的術(shù)語;本發(fā)明充分考慮到學(xué)術(shù)論文的術(shù)語分布特點(diǎn)以及學(xué)術(shù)論文的類別信息的問題,提高了學(xué)術(shù)論文術(shù)語抽取的準(zhǔn)確率和召回率。 |
