一種基于多源異構(gòu)特征的文本數(shù)據(jù)集質(zhì)量評(píng)估方法

基本信息

申請(qǐng)?zhí)?/td> CN202110548575.7 申請(qǐng)日 -
公開(公告)號(hào) CN112989827A 公開(公告)日 2021-06-18
申請(qǐng)公布號(hào) CN112989827A 申請(qǐng)公布日 2021-06-18
分類號(hào) G06F40/289;G06F40/216;G06F40/211;G06F40/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 章海鋒;劉曉雷;丁仙峰;于廣郢 申請(qǐng)(專利權(quán))人 江蘇數(shù)兌科技有限公司
代理機(jī)構(gòu) 北京細(xì)軟智谷知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 代理人 付登云
地址 210000 江蘇省南京市秦淮區(qū)永智路5號(hào)南京白下高新技術(shù)產(chǎn)業(yè)園區(qū)五號(hào)樓E棟101-88室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于多源異構(gòu)特征的文本數(shù)據(jù)集質(zhì)量評(píng)估方法,屬于文本數(shù)據(jù)質(zhì)量評(píng)估領(lǐng)域;在獲取待評(píng)估的文本數(shù)據(jù)集后,通過識(shí)別文本數(shù)據(jù)集的數(shù)據(jù)類型,得到待評(píng)估文本數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)還是半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)文本數(shù)據(jù)集的數(shù)據(jù)類型計(jì)算文本數(shù)據(jù)集的指標(biāo)。最后根據(jù)指標(biāo)生成文本數(shù)據(jù)集的質(zhì)量評(píng)估報(bào)告。由于不同數(shù)據(jù)類型采用的指標(biāo)不同,因此針對(duì)不同的數(shù)據(jù)類型可以給出精確的質(zhì)量評(píng)估報(bào)告。