一種基于Hadoop生態(tài)的論文實時推薦與離線推薦互補方法

基本信息

申請?zhí)?/td> CN202111262052.2 申請日 -
公開(公告)號 CN113971204A 公開(公告)日 2022-01-25
申請公布號 CN113971204A 申請公布日 2022-01-25
分類號 G06F16/33(2019.01)I;G06F16/335(2019.01)I;G06F40/289(2020.01)I;G06V10/74(2022.01)I;G06F9/54(2006.01)I;G06K9/62(2022.01)I 分類 計算;推算;計數(shù);
發(fā)明人 邰偉鵬;趙佳俊;李偉;陳業(yè)斌;王小林 申請(專利權)人 安徽工業(yè)大學科技園有限公司
代理機構 安徽知問律師事務所 代理人 王亞軍
地址 243000安徽省馬鞍山市經(jīng)濟技術開發(fā)區(qū)(示范園區(qū))嘉善科技園1號科研樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于Hadoop生態(tài)的論文實時推薦與離線推薦互補方法,屬于大數(shù)據(jù)推薦領域,本發(fā)明使用Hadoop生態(tài)中的數(shù)據(jù)倉庫Hive存儲論文數(shù)據(jù),對論文標簽進行分詞,以向量化方式分層保存在數(shù)據(jù)倉庫中;引入離線計算引擎MapReduce對數(shù)據(jù)計算離線推薦結果;引入流計算引擎Spark Streaming實時采集Kafka中的論文數(shù)據(jù),并進行分詞、向量化表示后,與Spark SQL讀取Hive數(shù)倉中論文向量化數(shù)據(jù)計算實時推薦結果。本發(fā)明專利結合推薦算法和Hadoop生態(tài)不僅有效解決海量論文推薦問題,提升論文推薦實時性,同時根據(jù)論文分類號修正相似度計算來提升推薦準確度,優(yōu)化論文推薦結果。