一種基于分布式數(shù)據(jù)庫(kù)的全文搜索引擎

基本信息

申請(qǐng)?zhí)?/td> CN201710395591.0 申請(qǐng)日 -
公開(公告)號(hào) CN107229714B 公開(公告)日 2020-02-14
申請(qǐng)公布號(hào) CN107229714B 申請(qǐng)公布日 2020-02-14
分類號(hào) G06F16/93;G06F16/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 江和慧;黃顯洛 申請(qǐng)(專利權(quán))人 杭州宇為科技有限公司
代理機(jī)構(gòu) 浙江翔隆專利事務(wù)所(普通合伙) 代理人 郭關(guān)夫
地址 310026 浙江省杭州市濱江區(qū)長(zhǎng)河街道長(zhǎng)河路475號(hào)1幢13層1325室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種基于分布式數(shù)據(jù)庫(kù)的全文搜索引擎,包括索引和搜索,其中:索引是將文檔和文檔經(jīng)過分詞后的單詞存入分布式數(shù)據(jù)庫(kù);搜索是根據(jù)用戶的輸入,返回包含用戶輸入以及經(jīng)過排序的結(jié)果。本發(fā)明使用三張表(即單詞表、文檔表和語料庫(kù)表),采用不同的均衡字段,單詞表用單詞id分表,文檔表用文檔id分表,語料庫(kù)表用單詞id分表,從而在查詢的時(shí)候,按照單詞進(jìn)行查詢,單詞表按照單詞id作為均衡字段,只需要到指定的某些節(jié)點(diǎn)上執(zhí)行即可,其搜索效率大大地提高。使用了分布式數(shù)據(jù)庫(kù)作為存儲(chǔ)介質(zhì),可以利用其強(qiáng)大的緩存和sql計(jì)算功能,另外分布式數(shù)據(jù)庫(kù)自身帶有分布式功能,使其具有很強(qiáng)的擴(kuò)展能力。