一種詞匯表的篩選方法

基本信息

申請?zhí)?/td> CN201910390439.2 申請日 -
公開(公告)號 CN110134767B 公開(公告)日 2021-07-23
申請公布號 CN110134767B 申請公布日 2021-07-23
分類號 G06F16/33(2019.01)I;G06F40/216(2020.01)I;G06F40/30(2020.01)I;G06F40/284(2020.01)I;G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 陳峰 申請(專利權)人 云知聲(上海)智能科技有限公司
代理機構 北京冠和權律師事務所 代理人 朱健;張國香
地址 200000上海市徐匯區(qū)桂箐路65號1幢702室03單元
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種詞匯表的篩選方法,包括:確定預設詞匯在預先存儲的語料庫中出現(xiàn)的頻率;確定預設詞匯在預先存儲的語料庫中的預設語段中的位置信息,并根據(jù)所述位置信息獲得所述預設詞匯對應的位置熵;根據(jù)所確定的預設詞匯在預先存儲的語料庫中出現(xiàn)的頻率和獲得的所述預設詞匯對應的位置熵,計算出所述預設詞匯的權重;根據(jù)所計算出的所述預設詞匯的權重結果,從預先存儲的語料庫中篩選出相關的預設詞匯,構成篩選詞匯表。用以提高篩選詞匯的準確性和可靠性。