《Hadoop与大数据挖掘》一1.2 大数据平台

1.2 大数据平台

大数据平台有哪些呢?
一般认为大数据平台分为两个方面,硬件平台和软件平台。硬件平台一般如Open-Stack、Amazon云平台、阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等。而软件平台则是大家经常听到的,如Hadoop、MapReduce、Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务。
Hadoop生态圈大数据平台,可以大概分为3种:Apache Hadoop(原生开源Hadoop)、Hadoop Distribution(Hadoop发行版)、Big Data Suite(大数据开发套件)。Apache Hadoop 是原生的,即官网提供的,只包含基本的软件;Hadoop Distribution是一些软件供应商提供的,具有的功能相对多,这个版本有收费版也有免费版,用户可选;而大数据开发套件则是一些大公司提供的集成方案,提供的功能更多,但是相应的也比较贵。
Apache Hadoop是开源的,用户可以直接访问或更改代码。它是完全分布式的,配置包含用户权限、访问控制等,再加上多种生态系统软件支持,比较复杂。这里涉及版本不兼容性问题。所以该版本比较适合学习并理解底层细节或Hadoop详细配置、调优等。
Hadoop Distribution版本简化了用户的操作以及开发任务,比如可以一键部署等,而且有配套的生态圈支持以及管理监控功能,如业内广泛使用的HDP、CDH、MapR等平台。CDH是最成型的发行版本,拥有最多的部署案例,而且提供强大的部署、管理和监控工具,其开发公司Cloudera贡献了自己的可实时处理大数据的Impala项目。HDP是100%开源Apache Hadoop的唯一提供商,其开发公司 Hortonworks开发了很多增强特性并提交至核心主干,并且Hortonworks为入门者提供了一个非常好的、易于使用的沙盒。MapR为了获取更好的性能和易用性而支持本地UNIX文件系统而不是HDFS(使用非开源的组件),并且可以使用本地UNIX命令来代替Hadoop命令。除此之外,MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。当需要一个简单的学习环境时,就可以选用这个版本,当然,针对一些企业也可以选择这个版本的收费版,也是有很多软件支持的。
Big Data Suite(大数据套件)是建立在Eclipse之类的IDE之上的,其附加的插件极大地方便了大数据应用的开发。用户可以在自己熟悉的开发环境之内创建、构建并部署大数据服务,并且生成所有的代码,从而做到不用编写、调试、分析和优化MapReduce代码。大数据套件提供了图形化的工具来为你的大数据服务进行建模,所有需要的代码都是自动生成的,只需配置某些参数即可实现复杂的大数据作业。当企业用户需要不同的数据源集成、自动代码生成或大数据作业自动图形化调度时,就可以选择使用大数据套件。

时间: 2022-12-20

《Hadoop与大数据挖掘》一1.2 大数据平台的相关文章

大数据挖掘在用友统一营销平台中的应用思考

用友的统一营销平台设计中,客户应该是最核心的,有客户才有一切.把大数据分析应用在客户管理上,会极大的提高效率.降低销售成本 目前,关于营销中客户客户应用的数据挖掘技术和方法的研究有很多,不同行业.不同环境下企业应用差异很大,应用到的具体数据挖掘技术和方法也会不同.数据挖掘技术和方法层出不穷,在这里也难以涵盖全部的技术和方法.虽然,不同的CRM应用到的数据挖掘技术很多,也很复杂.但是客户管理应用数据挖掘的目的主要在于以下四个方面:客户细分.获取新客户.提升客户价值和保持客户以防止流失等方面: 一.

《Hadoop与大数据挖掘》一导读

前 言 为什么要写这本书 最早提出"大数据"时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来." 早在2012年,大数据(big data)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当

《Hadoop与大数据挖掘》一2.1 Hadoop概述

2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机的计算机,无论是硬盘存储.网络IO.计算CPU还是内存都是非常有限的.针对这种情况,Hadoop应运而生. 那么,Hadoop是什么呢?我们可以很容易在一些比较权威的网站上找到它的定义,例如:Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情况下开发分布式程序,

《Hadoop与大数据挖掘》——1.2 大数据平台

1.2 大数据平台 大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台.硬件平台一般如Open-Stack.Amazon云平台.阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等.而软件平台则是大家经常听到的,如Hadoop.MapReduce.Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务. Hadoo

ArcGIS新一代大数据挖掘技术

Esri自2013年发布了GIS tools for Hadoop,正式加入互联网大数据厂商的行列,至今已经3年了.在这3年中风云变幻,业界技术在不断的发生着变更,Esri的大数据战略也在不断的向前推进. 在刚刚结束的2016Esri空间信息技术开发者大会上,在IT热点技术专场的<ArcGIS平台下的大数据挖掘>,与往年相比,发生了明显的变化.往年因为Esri自身的原因,将大数据限定在空间大数据这个领域里面.但是今年很明显的发现,在ArcGIS的平台上,已将传统的空间二字去掉,使得平台支持的领

利用大数据挖掘商机 三项铁规则需遵守

在日本除了诸如人力资源巨头Recruit和花王.H.I.S(大型综合旅行代理店).DeNA(移动互联网公司)以及三菱重工等大企业,包括一些地方的中坚企业和一般中小企业也不甘落后,纷纷开始利用大数据创造商机.可以肯定,在大数据的竞争时代,很多企业将竞相利用大数据,进入新的商务领域,创造出对手无法效仿的商务模式. 但是,如果只是漫无目的地收集大量的数据进行分析,也不可能发现宝藏.必须具有明确的目标和行动,才能够从大数据发现其商业价值. 一.利用大数据挖掘商机 拥有近300年历史的日本京都宇治茶老铺-

大数据挖掘中的三种角色

我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的.后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得.不管怎么样,欢迎指教和讨论. 另外,注明一下,这篇文章的标题模仿了一个美剧<权力的游戏:冰与火之歌>.在数据的世界里,我们看到了很多很牛,很强大也很有趣的案例.但是,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤. 大数据挖掘中的

基于大数据挖掘的科技项目查重模型研究

基于大数据挖掘的科技项目查重模型研究 李善青 赵辉 宋立荣 科技项目查重是避免重复立项.重复建设的重要措施之一,目前缺乏行之有效的方法.文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息.发表论文信息.关键词.负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用Hadoop框架实现海量数据的快速挖掘.文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法. 基于大数据挖掘的科技项

十大数据挖掘算法及各自优势

  国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响. 1. C4.5