一種基于Hadoop生態(tài)的論文實(shí)時(shí)推薦與離線推薦互補(bǔ)方法
基本信息
申請(qǐng)?zhí)?/td> | CN202111262052.2 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN113971204A | 公開(kāi)(公告)日 | 2022-01-25 |
申請(qǐng)公布號(hào) | CN113971204A | 申請(qǐng)公布日 | 2022-01-25 |
分類(lèi)號(hào) | G06F16/33(2019.01)I;G06F16/335(2019.01)I;G06F40/289(2020.01)I;G06V10/74(2022.01)I;G06F9/54(2006.01)I;G06K9/62(2022.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 邰偉鵬;趙佳俊;李偉;陳業(yè)斌;王小林 | 申請(qǐng)(專(zhuān)利權(quán))人 | 安徽工業(yè)大學(xué)科技園有限公司 |
代理機(jī)構(gòu) | 安徽知問(wèn)律師事務(wù)所 | 代理人 | 王亞軍 |
地址 | 243000安徽省馬鞍山市經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)(示范園區(qū))嘉善科技園1號(hào)科研樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開(kāi)了一種基于Hadoop生態(tài)的論文實(shí)時(shí)推薦與離線推薦互補(bǔ)方法,屬于大數(shù)據(jù)推薦領(lǐng)域,本發(fā)明使用Hadoop生態(tài)中的數(shù)據(jù)倉(cāng)庫(kù)Hive存儲(chǔ)論文數(shù)據(jù),對(duì)論文標(biāo)簽進(jìn)行分詞,以向量化方式分層保存在數(shù)據(jù)倉(cāng)庫(kù)中;引入離線計(jì)算引擎MapReduce對(duì)數(shù)據(jù)計(jì)算離線推薦結(jié)果;引入流計(jì)算引擎Spark Streaming實(shí)時(shí)采集Kafka中的論文數(shù)據(jù),并進(jìn)行分詞、向量化表示后,與Spark SQL讀取Hive數(shù)倉(cāng)中論文向量化數(shù)據(jù)計(jì)算實(shí)時(shí)推薦結(jié)果。本發(fā)明專(zhuān)利結(jié)合推薦算法和Hadoop生態(tài)不僅有效解決海量論文推薦問(wèn)題,提升論文推薦實(shí)時(shí)性,同時(shí)根據(jù)論文分類(lèi)號(hào)修正相似度計(jì)算來(lái)提升推薦準(zhǔn)確度,優(yōu)化論文推薦結(jié)果。 |
