博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【大数据技术】操作系统和Hadoop版本选择
阅读量:5275 次
发布时间:2019-06-14

本文共 1175 字,大约阅读时间需要 3 分钟。

1.操作系统选择

Hadoop产品是由Java语言开发的,所以推荐的是Linux操作系统,理由很简单开源免费,推荐的操作系统CentOS

  • CentOS是一个基于Red Hat 企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本。
  • CentOS两年发行一次新版本,每个版本都会获得7年的支持(通过安全更新方式),大概6个月更新一次小版本,以便支持新的硬件。
  • CentOS独有的yum命令支持在线升级,可以即时更新系统,完全免费。

2.Hadoop版本

不收费的Hadoop版本主要有国外的四个,分别是Apache基金会hadoop、Cloudera版本(CDH)、Hortonworks版本(HDP)、MapR版本。对于国内而言,绝大多数选择CDH版本

  • Apache社区版本:最原始的版本,所有发行版均基于这个版本进行改进
  • Cloudera版本:Cloudera’s Distribution Including Apache Hadoop,简称CDH
  • Hortonworks版本:Hortonworks Data Platform,简称“HDP”
  • MapReduce版本

(1)Hortonworks

主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,HDP除了常见的项目外还包含了Ambari,一款开源的安装和管理系统。HCatalog,一个元数据管理系统。

 

 

(2)Cloudera

最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。

 

(3)MapR

为了获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS(使用非开源的组件),可以使用本地Unix命令来代替Hadoop命令。MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。

 

3.选择决定

当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:

(1)是否为开源软件,即是否免费。

(2)是否有稳定版,这个一般软件官方网站会给出说明。

(3)是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。

(4)是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

考虑到大数据平台高效的部署和安装,中心化的配置管理,使用过程中的稳定性、兼容性、扩展性,以及未来较为简单、高效的运维,遇到问题低廉的解决成本。建议使用第三方发行版本,其中在第三发发行版中,国内应用较多的是Cloudera的CDH。

 

 

参考文档:

转载于:https://www.cnblogs.com/badboy200800/p/10008791.html

你可能感兴趣的文章
如何快速掌握一门技术
查看>>
利用AMPScript获取Uber用户数据的访问权限
查看>>
vagrant 同时设置多个同步目录
查看>>
python接口自动化28-requests-html爬虫框架
查看>>
生成随机数的模板
查看>>
Mysql 数据库操作
查看>>
转:linux终端常用快捷键
查看>>
UVa 11059 最大乘积
查看>>
数组分割问题求两个子数组的和差值的小
查看>>
composer 报 zlib_decode(): data error
查看>>
hdu 3938 并查集
查看>>
《深入分析Java Web技术内幕》读书笔记之JVM内存管理
查看>>
python之GIL release (I/O open(file) socket time.sleep)
查看>>
软件开发与模型
查看>>
161017、SQL必备知识点
查看>>
kill新号专题
查看>>
MVC学习系列——Model验证扩展
查看>>
mysqladmin 修改和 初始化密码
查看>>
字符串
查看>>
vue2.x directive - 限制input只能输入正整数
查看>>