一種基于Spark-Streaming的文本相似性分析的數(shù)據(jù)處理方法和裝置

基本信息

申請?zhí)?/td> CN201711262073.8 申請日 -
公開(公告)號 CN108009152A 公開(公告)日 2018-05-08
申請公布號 CN108009152A 申請公布日 2018-05-08
分類號 G06F17/27;G06F17/22 分類 計算;推算;計數(shù);
發(fā)明人 李哲君;衛(wèi)華飛;劉歡;程瑞輝 申請(專利權)人 陜西識代運籌信息科技股份有限公司
代理機構 北京眾達德權知識產(chǎn)權代理有限公司 代理人 陜西識代運籌信息科技股份有限公司
地址 710065 陜西省西安市高新區(qū)錦業(yè)一路29號龍旗科技園A座8層
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于Spark?Streaming的文本相似性分析的數(shù)據(jù)處理方法和裝置,涉及計算機技術領域,所述方法包括:動態(tài)獲得實時文本數(shù)據(jù)庫;根據(jù)實時文本數(shù)據(jù)庫,獲得第一文本信息,獲得第二文本信息;獲得文本長度相似性信息;獲得文本詞序相似性信息;獲得文本關鍵詞相似性信息;獲得文本語法相似性信息;根據(jù)所述文本長度相似性信息、所述文本詞序相似性信息、所述文本關鍵詞相似性信息、所述文本語法相似性信息,確定所述第一文本信息與所述第二文本信息的語句相似度。解決了現(xiàn)有技術中無法實現(xiàn)對實時網(wǎng)絡數(shù)據(jù)流快速、準確的情感分析的技術問題。達到了基于大數(shù)據(jù)平臺,實現(xiàn)對海量文本進行多維度、實時的、準確的文本相似性的技術效果。