一種摘要抽取方法

基本信息

申請(qǐng)?zhí)?/td> CN202111532196.5 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113918708B 公開(kāi)(公告)日 2022-03-22
申請(qǐng)公布號(hào) CN113918708B 申請(qǐng)公布日 2022-03-22
分類號(hào) G06F16/34(2019.01)I;G06F16/36(2019.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06K9/62(2022.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 胡為民;鄭喜 申請(qǐng)(專利權(quán))人 深圳市迪博企業(yè)風(fēng)險(xiǎn)管理技術(shù)有限公司
代理機(jī)構(gòu) 北京惟盛達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 陳釗
地址 518000廣東省深圳市福田區(qū)深南大道1006號(hào)國(guó)際創(chuàng)新中心A棟6樓西
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,具體涉及一種摘要抽取方法,包括如下步驟:S1、預(yù)處理,將公告文本中的數(shù)值、時(shí)間類型數(shù)據(jù)進(jìn)行泛化處理;S2、構(gòu)建第一詞表;S3、構(gòu)建第一詞表的詞語(yǔ)共現(xiàn)矩陣;S4、詞語(yǔ)共現(xiàn)矩陣降維,提取第一詞表內(nèi)所有詞語(yǔ)的語(yǔ)義表征;S5、重復(fù)S2至S4,提取公告文本中所有詞語(yǔ)的語(yǔ)義表征;S6、以語(yǔ)句為單位,將語(yǔ)義表征進(jìn)行累加合并,形成語(yǔ)句上下文語(yǔ)義表征;S7、用戶輸入關(guān)鍵詞組,提取關(guān)鍵詞組語(yǔ)義表征;S8、判斷關(guān)鍵詞組語(yǔ)義表征與語(yǔ)句上下文語(yǔ)義表征的相似度,關(guān)鍵詞組的相似度大于設(shè)定值,則將包括該關(guān)鍵詞組的公告文本語(yǔ)句抽取為公共文本摘要。抽取摘要的內(nèi)容與用戶輸入關(guān)鍵詞的關(guān)聯(lián)度高。