文本中關(guān)鍵段落的檢測方法及裝置

基本信息

申請?zhí)?/td> CN201910821973.4 申請日 -
公開(公告)號 CN110532563A 公開(公告)日 2019-12-03
申請公布號 CN110532563A 申請公布日 2019-12-03
分類號 G06F17/27;G06N3/04 分類 計算;推算;計數(shù);
發(fā)明人 熊玉竹;周以晴;侯紹東 申請(專利權(quán))人 蘇州美能華智能科技有限公司
代理機構(gòu) 蘇州謹和知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 葉棟
地址 215123 江蘇省蘇州市蘇州工業(yè)園區(qū)金雞湖大道88號7期G1-902單元
法律狀態(tài) -

摘要

摘要 本申請揭示了一種文本中關(guān)鍵段落檢測方法及裝置,該方法包括將待檢測文本進行切分復(fù)制處理得到段落集;將各個段落集均輸入至標簽預(yù)測模型中,得到各個段落的標簽;去除段落集中無效的首端預(yù)定字數(shù)和尾端預(yù)定字數(shù),將剩余的有效文本的標簽拼接在一起,得到段落集所對應(yīng)的原始的各段落的標簽;篩選出標簽為B和I的原始段落作為關(guān)鍵段落。本申請通過將待檢測文本進行切分,得到較短的段落集,利用標簽預(yù)測模型對每個段落集中的段落進行預(yù)測,得到各段落的標簽,為了降低切分段落集所導(dǎo)致的起始邊界處上文信息缺失和結(jié)尾邊界處下文信息缺失,使用重疊操作進行邊界處的切分優(yōu)化,提高了段落預(yù)測的準確率,大大降低了段落標簽預(yù)測的計算復(fù)雜度。