一種針對(duì)不同學(xué)科題目文本分類(lèi)的方法
基本信息
申請(qǐng)?zhí)?/td> | CN201510545940.3 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN105183831A | 公開(kāi)(公告)日 | 2015-12-23 |
申請(qǐng)公布號(hào) | CN105183831A | 申請(qǐng)公布日 | 2015-12-23 |
分類(lèi)號(hào) | G06F17/30(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 羅登;周賢華;萬(wàn)享;張玉志 | 申請(qǐng)(專(zhuān)利權(quán))人 | 深圳市點(diǎn)通數(shù)據(jù)有限公司 |
代理機(jī)構(gòu) | 深圳市科吉華烽知識(shí)產(chǎn)權(quán)事務(wù)所(普通合伙) | 代理人 | 上海德唐數(shù)據(jù)科技有限公司;深圳市點(diǎn)通數(shù)據(jù)有限公司 |
地址 | 201600 上海市松江區(qū)漕河涇開(kāi)發(fā)區(qū)松江高科技園莘磚公路518號(hào)11幢404-2室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明適用于數(shù)據(jù)預(yù)處理技術(shù)領(lǐng)域,提供了一種針對(duì)不同學(xué)科題目文本分類(lèi)的方法,所述方法包括以下步驟:A、使用卡方檢驗(yàn)對(duì)每門(mén)學(xué)科進(jìn)行選詞組成該學(xué)科的特征詞表;B、利用樸素貝葉斯模型將選好的特征詞進(jìn)行學(xué)科分類(lèi);C、利用支持向量機(jī)對(duì)樸素貝葉斯模型分類(lèi)中給出的前兩名概率最大的結(jié)構(gòu)進(jìn)行二次分類(lèi)給出第一名結(jié)果。通過(guò)兩次分類(lèi),使得分類(lèi)平均正確率得到提高,本方法實(shí)現(xiàn)簡(jiǎn)單、操作簡(jiǎn)單、使用方便準(zhǔn)確,對(duì)學(xué)科間的分類(lèi)更加準(zhǔn)確,有效的提高了鄰近學(xué)科之間分類(lèi)的正確率。 |
