一種數(shù)據(jù)特征提取、匹配方法及裝置

基本信息

申請?zhí)?/td> CN202011335129.X 申請日 -
公開(公告)號 CN112395292A 公開(公告)日 2021-02-23
申請公布號 CN112395292A 申請公布日 2021-02-23
分類號 G06F16/22(2019.01)I; 分類 計算;推算;計數(shù);
發(fā)明人 呂凱輝 申請(專利權(quán))人 電信科學(xué)技術(shù)第十研究所有限公司
代理機構(gòu) 廣州三環(huán)專利商標(biāo)代理有限公司 代理人 黨娟娟;郭永麗
地址 710061陜西省西安市雁塔西路6號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種數(shù)據(jù)特征提取、匹配方法及裝置,涉及通信技術(shù)領(lǐng)域。該方法包括:利用圖形化界面配置,將結(jié)構(gòu)化數(shù)據(jù)寫入原始數(shù)據(jù)庫表中;利用大平臺ETL能力對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗、去重、編碼轉(zhuǎn)換操作,得到規(guī)范數(shù)據(jù),將規(guī)范數(shù)據(jù)加載目標(biāo)庫表;從非結(jié)構(gòu)化數(shù)據(jù)中提取包括文件內(nèi)容、摘要、圖片的非結(jié)構(gòu)數(shù)據(jù),對提取的圖片采用原始文件名加序號加時間戳的方式命名,形成圖片庫;將非結(jié)構(gòu)化數(shù)據(jù)中的非結(jié)構(gòu)文件的文件名、文件內(nèi)容、摘要加載至第一庫表中,所述第一庫表包括非結(jié)構(gòu)文件的文件名、文件內(nèi)容和摘要;基于ID?Mapping將目標(biāo)庫表中的規(guī)范數(shù)據(jù)與第一庫表和圖片庫中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián),將具有關(guān)聯(lián)關(guān)系的匹配結(jié)果打包為zip文件。??