一種基于多源異構(gòu)特征的文本數(shù)據(jù)集質(zhì)量評(píng)估方法
基本信息
申請(qǐng)?zhí)?/td> | CN202110548575.7 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN112989827A | 公開(公告)日 | 2021-06-18 |
申請(qǐng)公布號(hào) | CN112989827A | 申請(qǐng)公布日 | 2021-06-18 |
分類號(hào) | G06F40/289;G06F40/216;G06F40/211;G06F40/30 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 章海鋒;劉曉雷;丁仙峰;于廣郢 | 申請(qǐng)(專利權(quán))人 | 江蘇數(shù)兌科技有限公司 |
代理機(jī)構(gòu) | 北京細(xì)軟智谷知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人 | 付登云 |
地址 | 210000 江蘇省南京市秦淮區(qū)永智路5號(hào)南京白下高新技術(shù)產(chǎn)業(yè)園區(qū)五號(hào)樓E棟101-88室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于多源異構(gòu)特征的文本數(shù)據(jù)集質(zhì)量評(píng)估方法,屬于文本數(shù)據(jù)質(zhì)量評(píng)估領(lǐng)域;在獲取待評(píng)估的文本數(shù)據(jù)集后,通過識(shí)別文本數(shù)據(jù)集的數(shù)據(jù)類型,得到待評(píng)估文本數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)還是半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)文本數(shù)據(jù)集的數(shù)據(jù)類型計(jì)算文本數(shù)據(jù)集的指標(biāo)。最后根據(jù)指標(biāo)生成文本數(shù)據(jù)集的質(zhì)量評(píng)估報(bào)告。由于不同數(shù)據(jù)類型采用的指標(biāo)不同,因此針對(duì)不同的數(shù)據(jù)類型可以給出精確的質(zhì)量評(píng)估報(bào)告。 |
