一種基于關(guān)鍵詞拆分技術(shù)的文檔關(guān)鍵信息提取方法和系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202111052073.1 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN113850056A | 公開(公告)日 | 2021-12-28 |
申請(qǐng)公布號(hào) | CN113850056A | 申請(qǐng)公布日 | 2021-12-28 |
分類號(hào) | G06F40/154(2020.01)I;G06F40/258(2020.01)I;G06F40/221(2020.01)I;G06F40/169(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 佘俊;趙增濤;余少鋒;廖崇陽;羅勇 | 申請(qǐng)(專利權(quán))人 | 南方電網(wǎng)調(diào)峰調(diào)頻發(fā)電有限公司信息通信分公司 |
代理機(jī)構(gòu) | 成都魚爪智云知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 梁悅敏 |
地址 | 511492廣東省廣州市番禺區(qū)東環(huán)街番禺大道北555號(hào)番禺節(jié)能科技園內(nèi)街天安總部中心1號(hào)樓601房 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提出了一種基于關(guān)鍵詞拆分技術(shù)的文檔關(guān)鍵信息提取方法和系統(tǒng),涉及文檔關(guān)鍵信息提取領(lǐng)域。該方法包括:將獲取的目標(biāo)文檔轉(zhuǎn)換成XML格式文檔;基于關(guān)鍵詞拆分檢測(cè)技術(shù)對(duì)XML格式文檔進(jìn)行關(guān)鍵信息提取。通過獲取目標(biāo)文檔并將目標(biāo)文檔轉(zhuǎn)換成XML格式文檔;XML為可擴(kuò)展標(biāo)記語言,是一種用于標(biāo)記電子文件使其具有結(jié)構(gòu)性的標(biāo)記語言。因此將目標(biāo)文檔轉(zhuǎn)換成XML格式文檔,便于后續(xù)提取信息?;陉P(guān)鍵詞拆分檢測(cè)技術(shù)對(duì)XML格式文檔進(jìn)行關(guān)鍵信息提取。該步驟中,可以從連續(xù)的自然語言文本中,抽取出結(jié)構(gòu)化的關(guān)鍵字段信息。解決文檔信息量大且過于繁雜、無法讓用戶快速獲取需要的信息的問題。 |
