一種數(shù)據(jù)特征提取、匹配方法及裝置
基本信息
申請?zhí)?/td> | CN202011335129.X | 申請日 | - |
公開(公告)號 | CN112395292A | 公開(公告)日 | 2021-02-23 |
申請公布號 | CN112395292A | 申請公布日 | 2021-02-23 |
分類號 | G06F16/22(2019.01)I; | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 呂凱輝 | 申請(專利權(quán))人 | 電信科學(xué)技術(shù)第十研究所有限公司 |
代理機構(gòu) | 廣州三環(huán)專利商標(biāo)代理有限公司 | 代理人 | 黨娟娟;郭永麗 |
地址 | 710061陜西省西安市雁塔西路6號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種數(shù)據(jù)特征提取、匹配方法及裝置,涉及通信技術(shù)領(lǐng)域。該方法包括:利用圖形化界面配置,將結(jié)構(gòu)化數(shù)據(jù)寫入原始數(shù)據(jù)庫表中;利用大平臺ETL能力對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗、去重、編碼轉(zhuǎn)換操作,得到規(guī)范數(shù)據(jù),將規(guī)范數(shù)據(jù)加載目標(biāo)庫表;從非結(jié)構(gòu)化數(shù)據(jù)中提取包括文件內(nèi)容、摘要、圖片的非結(jié)構(gòu)數(shù)據(jù),對提取的圖片采用原始文件名加序號加時間戳的方式命名,形成圖片庫;將非結(jié)構(gòu)化數(shù)據(jù)中的非結(jié)構(gòu)文件的文件名、文件內(nèi)容、摘要加載至第一庫表中,所述第一庫表包括非結(jié)構(gòu)文件的文件名、文件內(nèi)容和摘要;基于ID?Mapping將目標(biāo)庫表中的規(guī)范數(shù)據(jù)與第一庫表和圖片庫中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián),將具有關(guān)聯(lián)關(guān)系的匹配結(jié)果打包為zip文件。?? |
