一種基于Hadoop生態(tài)的論文實時推薦與離線推薦互補方法
基本信息
申請?zhí)?/td> | CN202111262052.2 | 申請日 | - |
公開(公告)號 | CN113971204A | 公開(公告)日 | 2022-01-25 |
申請公布號 | CN113971204A | 申請公布日 | 2022-01-25 |
分類號 | G06F16/33(2019.01)I;G06F16/335(2019.01)I;G06F40/289(2020.01)I;G06V10/74(2022.01)I;G06F9/54(2006.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 邰偉鵬;趙佳俊;李偉;陳業(yè)斌;王小林 | 申請(專利權)人 | 安徽工業(yè)大學科技園有限公司 |
代理機構 | 安徽知問律師事務所 | 代理人 | 王亞軍 |
地址 | 243000安徽省馬鞍山市經(jīng)濟技術開發(fā)區(qū)(示范園區(qū))嘉善科技園1號科研樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種基于Hadoop生態(tài)的論文實時推薦與離線推薦互補方法,屬于大數(shù)據(jù)推薦領域,本發(fā)明使用Hadoop生態(tài)中的數(shù)據(jù)倉庫Hive存儲論文數(shù)據(jù),對論文標簽進行分詞,以向量化方式分層保存在數(shù)據(jù)倉庫中;引入離線計算引擎MapReduce對數(shù)據(jù)計算離線推薦結果;引入流計算引擎Spark Streaming實時采集Kafka中的論文數(shù)據(jù),并進行分詞、向量化表示后,與Spark SQL讀取Hive數(shù)倉中論文向量化數(shù)據(jù)計算實時推薦結果。本發(fā)明專利結合推薦算法和Hadoop生態(tài)不僅有效解決海量論文推薦問題,提升論文推薦實時性,同時根據(jù)論文分類號修正相似度計算來提升推薦準確度,優(yōu)化論文推薦結果。 |
