Word文檔的轉(zhuǎn)換方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201611252467.0 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN106802937A | 公開(kāi)(公告)日 | 2017-06-06 |
申請(qǐng)公布號(hào) | CN106802937A | 申請(qǐng)公布日 | 2017-06-06 |
分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 諸葛峰;謝志雄;李濟(jì)君 | 申請(qǐng)(專利權(quán))人 | 江蘇中育優(yōu)教科技發(fā)展有限公司 |
代理機(jī)構(gòu) | 北京遠(yuǎn)大卓悅知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 韓飛 |
地址 | 214100 江蘇省無(wú)錫市濱湖區(qū)錦溪路100號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)一種Word文檔的轉(zhuǎn)換方法,包括步驟:對(duì)Word文檔的全文進(jìn)行Html標(biāo)簽語(yǔ)言文本化,輸出Html標(biāo)簽語(yǔ)言文本;設(shè)置具有正則表達(dá)式的預(yù)定義結(jié)構(gòu),通過(guò)預(yù)定義結(jié)構(gòu)對(duì)Html標(biāo)簽語(yǔ)言文本執(zhí)行搜索匹配,輸出初步結(jié)構(gòu)化文檔型數(shù)據(jù);用戶根據(jù)預(yù)定義結(jié)構(gòu)搜索匹配后提示的錯(cuò)誤信息,對(duì)初步結(jié)構(gòu)化文檔型數(shù)據(jù)中結(jié)構(gòu)的各層級(jí)以及內(nèi)容分別進(jìn)行人工修正,輸出完整的結(jié)構(gòu)化文檔型數(shù)據(jù)。本發(fā)明提供的Word文檔的轉(zhuǎn)換方法,通過(guò)對(duì)Word文檔Html化、預(yù)定義結(jié)構(gòu)搜索匹配以及人工輔助修正的方法,將Word文檔中以自然語(yǔ)言組織的內(nèi)容轉(zhuǎn)為以計(jì)算機(jī)語(yǔ)言組織的結(jié)構(gòu)化文檔型數(shù)據(jù)存儲(chǔ),供內(nèi)容數(shù)據(jù)的便利存儲(chǔ)、查詢以及分析。 |
