文本中關(guān)鍵段落的檢測方法及裝置
基本信息
申請?zhí)?/td> | CN201910821973.4 | 申請日 | - |
公開(公告)號 | CN110532563A | 公開(公告)日 | 2019-12-03 |
申請公布號 | CN110532563A | 申請公布日 | 2019-12-03 |
分類號 | G06F17/27;G06N3/04 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 熊玉竹;周以晴;侯紹東 | 申請(專利權(quán))人 | 蘇州美能華智能科技有限公司 |
代理機構(gòu) | 蘇州謹和知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 葉棟 |
地址 | 215123 江蘇省蘇州市蘇州工業(yè)園區(qū)金雞湖大道88號7期G1-902單元 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請揭示了一種文本中關(guān)鍵段落檢測方法及裝置,該方法包括將待檢測文本進行切分復(fù)制處理得到段落集;將各個段落集均輸入至標簽預(yù)測模型中,得到各個段落的標簽;去除段落集中無效的首端預(yù)定字數(shù)和尾端預(yù)定字數(shù),將剩余的有效文本的標簽拼接在一起,得到段落集所對應(yīng)的原始的各段落的標簽;篩選出標簽為B和I的原始段落作為關(guān)鍵段落。本申請通過將待檢測文本進行切分,得到較短的段落集,利用標簽預(yù)測模型對每個段落集中的段落進行預(yù)測,得到各段落的標簽,為了降低切分段落集所導(dǎo)致的起始邊界處上文信息缺失和結(jié)尾邊界處下文信息缺失,使用重疊操作進行邊界處的切分優(yōu)化,提高了段落預(yù)測的準確率,大大降低了段落標簽預(yù)測的計算復(fù)雜度。 |
