融合文本分布律特征的中文文本可讀性評價方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN202111289536.6 | 申請日 | - |
公開(公告)號 | CN113934850B | 公開(公告)日 | 2022-06-17 |
申請公布號 | CN113934850B | 申請公布日 | 2022-06-17 |
分類號 | G06F16/35(2019.01)I;G06N20/00(2019.01)I;G06K9/62(2022.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 趙慧周;郭雯鈺 | 申請(專利權(quán))人 | 北京語言大學(xué) |
代理機(jī)構(gòu) | 北京市廣友專利事務(wù)所有限責(zé)任公司 | 代理人 | - |
地址 | 100083北京市海淀區(qū)學(xué)院路15號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種融合文本分布律特征的中文文本可讀性評價方法及系統(tǒng),所述方法包括:確定文本特征候選集,所述文本特征候選集包括:字、詞、句、篇、分布律、可讀性公式六類特征;計(jì)算用于擬合可讀性公式參數(shù)和用于訓(xùn)練機(jī)器學(xué)習(xí)模型的訓(xùn)練篇章文本的上述六類特征的特征值;基于所述文本特征候選集中的特征及計(jì)算的特征值,進(jìn)行可讀性公式設(shè)計(jì)或者機(jī)器學(xué)習(xí)模型訓(xùn)練;利用設(shè)計(jì)的可讀性公式或者訓(xùn)練的機(jī)器學(xué)習(xí)模型對任意篇章文本進(jìn)行可讀性預(yù)測。本發(fā)明將文本分布律特征與字、詞、句、篇、可讀性公式特征相結(jié)合,經(jīng)過特征選擇后,進(jìn)行可讀性公式設(shè)計(jì)和機(jī)器學(xué)習(xí)模型訓(xùn)練,篇章文本可讀性預(yù)測準(zhǔn)確率有明顯提升。 |
