一種基于C++語言的混合型中文文本分詞方法
基本信息
申請?zhí)?/td> | CN202110077065.6 | 申請日 | - |
公開(公告)號 | CN113033193A | 公開(公告)日 | 2021-06-25 |
申請公布號 | CN113033193A | 申請公布日 | 2021-06-25 |
分類號 | G06F40/289;G06F40/284;G06F40/126;G06F40/216;G06F9/50 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 董仲舒;姚金龍;程杰;張陽光;何文歡;谷晶中 | 申請(專利權(quán))人 | 山谷網(wǎng)安科技股份有限公司 |
代理機構(gòu) | 鄭州大通專利商標代理有限公司 | 代理人 | 張立強 |
地址 | 450000 河南省鄭州市金水區(qū)楊金路199號河南新科技市場8號樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供一種基于C++語言的混合型中文文本分詞方法。該方法中,一個給定的文本數(shù)據(jù)的分詞過程包括第一次分詞過程和第二次分詞過程;第一次分詞過程的文本數(shù)據(jù)讀取順序和第二次分詞過程的文本數(shù)據(jù)讀取順序相反;其中,第一次分詞過程或第二次分詞過程包括以下步驟:步驟1:加載詞語詞庫和詞頻詞庫,并建立雙數(shù)組tire樹;步驟2:按照約定的文本數(shù)據(jù)讀取順序從給定的文本數(shù)據(jù)中讀取一行數(shù)據(jù),然后對當前行數(shù)據(jù)進行分詞;步驟3:判斷給定的文本數(shù)據(jù)是否已經(jīng)讀取完畢,若沒有,則返回步驟2;若讀取完畢,則執(zhí)行步驟4;步驟4:判斷給定的文本數(shù)據(jù)的分詞過程是否結(jié)束,若結(jié)束,則比較兩次分詞過程的分詞結(jié)果以確定給定的文本數(shù)據(jù)的最終分詞結(jié)果。 |
