一尘不染

Hadoop发行差异

java

有人可以概述可用的各种Hadoop发行版之间的各种差异吗?

以Apache Hadoop发行版为基准。

是否有 充分的理由 在标准Apache Hadoop发行版上使用这些发行版之一?


阅读 215

收藏
2020-12-03

共1个答案

一尘不染

免责声明:我今年夏天在Cloudera实习(但我最好的朋友在Yahoo! :-))

Yahoo发行版是Hadoop
20的一个版本,它们在集群的某些子集上运行(运行?)。它包括一组用于稳定性,错误修复等的补丁程序。它没有rpm或debian软件包等易于管理的功能。

Cloudera发行版以rpm和debs的形式打包(也提供源)。这意味着您可以通过标准方法等获取更新。它还包括稳定性和错误修复补丁。它一直在维护(不是说Yahoo不是-
我想一个人可以在github上检查一下他们上一次更新的时间)。它还包装Pig和Hive。

Cloudera的Hadoop
20发行版处于beta版本,而18则被认为是稳定的(有关更多信息,请访问Cloudera博客)。18版还包括Hive和Pig的软件包;对于20版本,您必须自己构建它们(尽管存在补丁,但还没有支持20版本的Pig或Hive的正式版本)。Cloudera和Yahoo
20版本之间可能存在重大重叠;两者都提供清单,因此您可以检查。有关Cloudera发行版的最新文档,请访问http://archive.cloudera.com。

雅虎不为其发布提供支持;他们为社区提供服务以提供补丁程序版本,因此有兴趣的人们可以构建Yahoo在内部运行的内容。考虑到Yahoo集群的规模,这是一个巨大的贡献,特别是如果您不是一直遵循JIRA的Hadoop开发人员。Cloudera支持其商业发行,并通过Hadoop邮件列表提供社区支持,以及针对发行版特定问题的GetSatisfaction页面。

两者都与原始Apache发行版有很大不同,因为它们在发行版之间进行了修补(cloudera版本20有60多个补丁!)。

2020-12-03