一種文本模式生成方法、裝置和計(jì)算設(shè)備
基本信息
申請(qǐng)?zhí)?/td> | CN201611139530.X | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN106776556B | 公開(kāi)(公告)日 | 2019-10-11 |
申請(qǐng)公布號(hào) | CN106776556B | 申請(qǐng)公布日 | 2019-10-11 |
分類號(hào) | G06F17/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 阮松松;姜寧 | 申請(qǐng)(專利權(quán))人 | 北京藍(lán)海訊通科技股份有限公司 |
代理機(jī)構(gòu) | 北京思睿峰知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 北京藍(lán)海訊通科技股份有限公司 |
地址 | 100191 北京市海淀區(qū)西小口路66號(hào)中關(guān)村東升科技園A-5號(hào)樓三、四層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種文本模式生成方法,適于在計(jì)算設(shè)備中執(zhí)行,該方法包括:獲取包括多條文本數(shù)據(jù)的文本庫(kù),并對(duì)其中每行文本數(shù)據(jù)進(jìn)行分詞處理;從文本數(shù)據(jù)中統(tǒng)計(jì)出每個(gè)單詞的出現(xiàn)次數(shù),并篩選出其中的高頻詞,將高頻詞及其出現(xiàn)次數(shù)進(jìn)行關(guān)聯(lián)存儲(chǔ);篩選出每行文本數(shù)據(jù)中的高頻詞,構(gòu)成該行文本數(shù)據(jù)對(duì)應(yīng)的高頻詞元組;根據(jù)各高頻詞在文本數(shù)據(jù)中的出現(xiàn)次數(shù),計(jì)算任意兩個(gè)高頻詞之間的依賴度;根據(jù)文本數(shù)據(jù)對(duì)應(yīng)的高頻詞元組,生成每行文本數(shù)據(jù)的預(yù)選文本模式;根據(jù)高頻詞之間的依賴度,對(duì)預(yù)選文本模式進(jìn)行修正,得到文本數(shù)據(jù)的修正文本模式;以及對(duì)修正文本模式進(jìn)行相似度合并,得到文本模式庫(kù)。本發(fā)明還公開(kāi)了對(duì)應(yīng)的文本模式生成裝置和計(jì)算設(shè)備。 |
