一種基于C++語言的混合型中文文本分詞方法

基本信息

申請?zhí)?/td> CN202110077065.6 申請日 -
公開(公告)號 CN113033193A 公開(公告)日 2021-06-25
申請公布號 CN113033193A 申請公布日 2021-06-25
分類號 G06F40/289;G06F40/284;G06F40/126;G06F40/216;G06F9/50 分類 計算;推算;計數(shù);
發(fā)明人 董仲舒;姚金龍;程杰;張陽光;何文歡;谷晶中 申請(專利權(quán))人 山谷網(wǎng)安科技股份有限公司
代理機構(gòu) 鄭州大通專利商標代理有限公司 代理人 張立強
地址 450000 河南省鄭州市金水區(qū)楊金路199號河南新科技市場8號樓
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于C++語言的混合型中文文本分詞方法。該方法中,一個給定的文本數(shù)據(jù)的分詞過程包括第一次分詞過程和第二次分詞過程;第一次分詞過程的文本數(shù)據(jù)讀取順序和第二次分詞過程的文本數(shù)據(jù)讀取順序相反;其中,第一次分詞過程或第二次分詞過程包括以下步驟:步驟1:加載詞語詞庫和詞頻詞庫,并建立雙數(shù)組tire樹;步驟2:按照約定的文本數(shù)據(jù)讀取順序從給定的文本數(shù)據(jù)中讀取一行數(shù)據(jù),然后對當前行數(shù)據(jù)進行分詞;步驟3:判斷給定的文本數(shù)據(jù)是否已經(jīng)讀取完畢,若沒有,則返回步驟2;若讀取完畢,則執(zhí)行步驟4;步驟4:判斷給定的文本數(shù)據(jù)的分詞過程是否結(jié)束,若結(jié)束,則比較兩次分詞過程的分詞結(jié)果以確定給定的文本數(shù)據(jù)的最終分詞結(jié)果。