一種基于分詞的模糊語(yǔ)句搜索方法

基本信息

申請(qǐng)?zhí)?/td> CN201710296379.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN107145555B 公開(kāi)(公告)日 2019-08-02
申請(qǐng)公布號(hào) CN107145555B 申請(qǐng)公布日 2019-08-02
分類號(hào) G06F16/33(2019.01)I; G06F16/9535(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 常帥; 鄧皓鐘 申請(qǐng)(專利權(quán))人 北京安數(shù)云信息技術(shù)有限公司
代理機(jī)構(gòu) 北京知呱呱知識(shí)產(chǎn)權(quán)代理有限公司 代理人 李芙蓉;孫進(jìn)華
地址 100085 北京市海淀區(qū)安寧莊西路9號(hào)院25號(hào)樓-01層106室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于分詞的模糊語(yǔ)句搜索方法,該方法通過(guò)對(duì)原文進(jìn)行分詞,記錄分詞起始位置;對(duì)重復(fù)出現(xiàn)的詞語(yǔ)合并,記錄重復(fù)出現(xiàn)的詞語(yǔ)起始位置;對(duì)關(guān)鍵字進(jìn)行分詞,關(guān)鍵字分詞的個(gè)數(shù)記為i,原文中至少出現(xiàn)一次的關(guān)鍵字分詞的個(gè)數(shù)記為w;計(jì)算出現(xiàn)率p,出現(xiàn)率p大于預(yù)設(shè)值,用關(guān)鍵字的分詞結(jié)果進(jìn)行搜索,得到關(guān)鍵字分詞在原文中位置,出現(xiàn)率p小于預(yù)設(shè)值,退出搜索;計(jì)算關(guān)鍵字分詞在原文中位置之間的距離d,比較距離d與相應(yīng)關(guān)鍵詞自身長(zhǎng)度之間的差值k是否在容許的數(shù)值范圍內(nèi),差值k在容許的數(shù)值范圍內(nèi),匹配到模糊搜索的結(jié)果。本發(fā)明可以實(shí)現(xiàn)對(duì)做過(guò)混淆、詞語(yǔ)順序跟換過(guò)的語(yǔ)句進(jìn)行檢索,檢索結(jié)果更加準(zhǔn)確,提高了檢索效率。