Hadoop遭遇瓶颈的七大危险信号

文章讲的是Hadoop遭遇瓶颈的七大危险信号,大多数企业大数据应用案例尚处于实验和试点阶段,对于少数首次在生产环境部署Hadoop系统的用户来说,最常遇到的就是扩展问题,此类问题往往导致企业因噎废食,终止大数据应用项目。

  部署和扩展Hadoop系统是一件高度复杂的事情,如果用户能提前对Hadoop扩展可能会遇到的各种问题和危险信号有所了解,就能避免很多“救火”场面。

  以下是Altiscale的Raymie Stata为我们总结的Hadoop大数据系统出现扩展问题的七大危险信号:

  危险信号一: 永远进入不了生产阶段

  大数据应用从概念验证到生产环境是一个巨大的飞跃,Hadoop系统的可扩展性将面临巨大的挑战。生产环境的数据规模产生的一些问题实验环境很难碰到。另外数据本身也存在差异,概念验证阶段使用的测试数据集往往是不真实的,或者类型单一。

  在进入生产环境前,大数据团队需要对Hadoop系统进行模拟真实数据规模的压力测试,此类测试能够检验大数据应用的可扩展性和容错性能,还能帮你做出更加准确的性能(资源需求)规划模型。

  危险信号二: 分析计算任务不断超时

  当Hadoop集群中运行的大数据应用很少或者只有一个时,一切都行云流水,按部就班,但是随着Hadoop集群的增长,数据分析任务的运行时间变得难以预测起来。一开始,只是有零星的超时现象,问题容易被忽视,但随着时间增长,超时问题会越来越严重,最后导致危机。

  在危机爆发前,你必须提前采取行动,根据任务峰值调整计算性能规划模型。

  危险信号三: 你开始告诉人们不要保留所有数据

  危机出现的另一个征兆是数据保留时间窗口不断缩水。一开始你想保留13个月的数据进行年度分析。但是由于空间限制,你开始减少保留数据的月份数。到最后,你的Hadoop系统因为没有足够多的数据而不再是“大数据”系统。

  数据保留窗口的缩水是因为存储的扩展性遇到问题,这与前面的计算性能问题类似。当你的容量预测模型出现问题时,需要尽快调整。

  危险信号四: 数据科学家被“饿死”

  任务负荷过重的Hadoop集群会扼杀创新,因为数据科学家们将没有足够的计算资源来开展大型任务,也没有足够的空间来存储中间结果。

  性能和容量规划通常会忽略或者低估数据科学家的需求,在加之前面提到的对生产环境任务的估计不足,会严重限制数据科学家的开拓性和创新性工作。

  危险信号五:数据科学家们开始查看Stack Overflow

  在Hadoop系统部署的早期,你的运营团队与科学家紧密协作。运营团队随时为数据科学家提供支持。(编者按:类似串联的协作模式)但是当Hadoop系统成功上线后,系统的运维和扩展任务就会让运营团队疲于奔命,这时候数据科学家遇到Hadoop问题就只好自己解决,例如经常去技术问答网站Stack Overflow查看问题帖子。

  危险信号六:数据中心越来越热

  数据中心服务器的电力都不是按服务器的功率峰值配置的,但是一个Hadoop集群运行任务的时候经常会连续“拷机”数小时,会烧坏功率不匹配的供电线路,同样的问题也存在于制冷系统中。部署Hadoop系统时请确保数据中心支持其长时间全速运行。

  危险信号七:费用超支

  基于IaaS的Hadoop部署,例如AWS,在支出上是失控的。一个月的费用很有可能是上个月的三倍,远远超出你的预算。

  性能规划对于基于IaaS的Hadoop部署来说也是非常重要的,但是好的性能规划只是开始,如果你需要扩展IaaS上的Hadoop系统,那么你需要学习Netflix在成本监控和优化系统上投入大量资金。

作者:王玉圆

来源:IT168

原文链接:Hadoop遭遇瓶颈的七大危险信号

时间: 2024-05-11 10:49:23

Hadoop遭遇瓶颈的七大危险信号的相关文章

Hadoop大数据系统的七大危险信号

大多数企业大数据应用案例尚处于实验和试点阶段,对于少数首次在生产环境部署Hadoop系统的用户来说,最常遇到的就是扩展问题,此类问题往往导致企业因噎废食,终止大数据应用项目. 部署和扩展Hadoop系统是一件高度复杂的事情,如果用户能提前对Hadoop扩展可能会遇到的各种问题和危险信号有所了解,就能避免很多"救火"场面. 以下是Hadoop大数据系统出现扩展问题的七大危险信号: 危险信号一: 永远进入不了生产阶段 大数据应用从概念验证到生产环境是一个巨大的飞跃,Hadoop系统的可扩展

3G全业务竞争遭遇瓶颈期待电信改革推进

3G全业务竞争遭遇瓶颈 期待电信业改革继续推进 ■本报记者 林琳 运营市场的恶性竞争有抬头趋势.近期某校园出现的"网络测试门"引发全社会关注与讨论.此外,四川.湖北等地还发生了运营商在校园营销中因争夺地盘而导致冲突的事件.运营商之间的争斗或明或暗且愈演愈烈,这类无视广大公众通信权益.不以保障网络畅通为己任的恶性竞争行为令人担忧,其之所以难以根治,实际上都是"垄断思维"在作怪. 在迎接祖国六十周年华诞的重要时期,运营商更要树立起积极向上的社会形象与责任意识,主动把竞争

微博发展遭遇瓶颈,发展之路前途未卜

2009年底,新浪率先开启了国内市场的微博大门,引爆微博这一社交平台,成功颠覆了传统的门户模式,轻松制造热点,吸引草根眼球,实现了更低成本.更广受众的传播和消费,从而迅速兴起了一股"微博热潮".一时间硝烟四起,除四大门户网站外,抢占微博市场的更有开心网.百度i贴吧.中国移动.人民网.新华网等等,微博的用户量也迅猛增长,截止到2013年,仅腾讯和新浪微博注册量就已经超过十亿用户. 然而,互联网市场瞬息万变,自2012年底,微博发展开始进入衰退期,用户量骤减.活跃度降低,各类微博网站陷入苦

“挂号网”数名高管集体离职 营利模式遭遇瓶颈

广东部分医院开通免费预约挂号.周游 摄 日前,网络预约挂号先行者"挂号网"宣布手机客户端上线,而新一轮的融资也即将完成.按照挂号网相关负责人的说法,挂号网已顺利度过了"资源整合期",开始进入"优化期".而就在此前不久,"挂号网"被爆发生地震,包括挂号网CTO汤峥嵘在内的数名高管已经集体离职,员工也进行了大规模的洗盘,从300多人裁到只剩下200人. 对于"挂号网"的遭遇,多位业内人士向南方日报记者指出,&q

天猫双十一数据:珠宝线上销售遭遇瓶颈

12月26日消息,根据天猫双十一的销售数据显示,线上珠宝销售增长放缓,该品类线上销售遭遇瓶颈.珂兰钻石创始人王雍表示,O2O将成为珂兰突破瓶颈.持续发展的关键. 双十一期间,珂兰钻石线上旗舰店的成交率为千分之一到千分之二之间,而线下体验店的成交率则在40%到50%之间.王雍认为,消费者不愿在线上购买价值贵重的珠宝是线上店铺成交率低.转化率低的主要原因.而线上线下成交率的巨大差异,让珂兰钻石认识到O2O模式将是珂兰未来发展的主要方向. 珂兰钻石在30多个城市拥有45个线体验店,其中32家线下体验店

前雅虎CTO:Hadoop扩展过程中的7个危险信号

ZDNet至顶网软件频道消息:本文作者Raymie Stata是Hadoop即服务公司Altiscale的创始人兼CEO,也是雅虎前任CTO,协助雅虎完成开源策略,并参与Apache Hadoop项目的发起.Hadoop的扩展和运维是非常复杂的过程,在其具体的实施过程中隐藏着潜在的危机,Raymie根据经验罗列了7项危机信号和相应的解决方案,帮助使用者提前避免灾难的发生. 以下为译文:  Hadoop扩展是一个非常复杂的过程,这里罗列了7种常见问题和解决方案. 所有Hadoop实施都存在着潜在的

Hadoop扩展过程中的7个危险信号

本文作者Raymie Stata是Hadoop即服务公司Altiscale的创始人兼CEO,也是雅虎前任CTO,协助雅虎完成开源策略,并参与Apache Hadoop项目的发起.Hadoop的扩展和运维是非常复杂的过程,在其具体的实施过程中隐藏着潜在的危机,Raymie根据经验罗列了7项危机信号和相应的解决方案,帮助使用者提前避免灾难的发生. 以下为译文: Hadoop扩展是一个非常复杂的过程,这里罗列了7种常见问题和解决方案. 所有Hadoop实施都存在着潜在的危机,包括一些非常棘手的Hado

王小峰:中国电影市场的现实或将遭遇瓶颈

阶梯式的座椅.顶天立地式的银幕.好的音响效果,是当今好影院必备的条件 这几年中国电影市场表面看前景一片光明,但43亿元票房相对13亿人口,还是微乎其微,这个数字可能不如一个市场上中等知名度品牌食品的一年销售额.这就是中国电影市场的现实. 电影真变了大市场? 2008年,中国电影票房43亿元,比2007年的33.27亿元票房增加了近10亿元.如果单从银幕绝对数字看,2006年82家影院366块银幕:2007年增加了102家影院,银幕数达到493块:到了2008年,增加了118家影院,银幕数达到57

淘宝小卖家遭遇瓶颈的自身原因浅析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 最近育通连续接到几个做淘宝的小卖家在微信上求助,说正在淘宝上经营某类产品,现在状况不佳,请问有什么办法可以改变;还有的在淘宝上经营数年,仍无法突破,前无出路,后有追兵,心急如焚-- 做个苦逼的小卖家真的挺难的,但是育通只凭对方简单的描述是无法给出有效的意见的.而且育通和卖家都很忙,相互沟通得也不多,在没得到详细情况时,就先说说比较通用的一些观点,以后有时间再分享一下育通当年做淘宝时的思路,希望能给在拼搏中的小卖家带来点启发. 虽然每家店铺的情况各异