用Big Data挖掘新的业务洞察

市场动力

最近几年中,web 和企业已经见证了数据膨胀。这一现象有很多种原因,例如,便宜的 terabyte 量级的存储硬件的商品化,随着时间的推移已接近临界规模的企业数据,以及允许轻松进行信息供应和交换的标准。

从企业的角度来说,日益增长的信息已经很难存储在标准关系型数据库甚至数据仓库中。这些问题提到了一些在实践中已存在多年的难题。例如:怎样查询一个十亿 行的表?怎样跨越数据中心所有服务器上的所有日志来运行一个查询?更为复杂的问题是,大量需要处理的数据是非结构化或者半结构化的,这就更难查询了。

当数据以这种数量存在时,一个处理局限是要花费很多的时间来移动数据,Apache Hadoop 的出现解决了这些问题,用其独一无二的方法将工作移到数据,而不是相反的移动。Hadoop 是一个集群技术,由两个独立但整合在一起的运行时组成:分布式文件系统(Hadoop Distributed File System,HDFS),提供数据冗余存储;map/reduce,允许并行运行用户提交的作业,处理存储在 HDFS 中的数据。尽管 Hadoop 并不是对每个场景都适合,但是它提供了良好的性能效益。使用 Hadoop 时,社区发现它不仅仅可用于数据处理,也打开了各种有趣的数据分析的大门。

借助 Hadoop,我们可以线性扩展运行在商品硬件上的集群来集成更大更丰富的数据集。这些数据集提供新的透视图,首先,在之前没有整合的异构数据源上运行分析,然后在同样的数据上有规模地运行分析。这个结构有点类似于范式转换(paradigm shift),正如 Flip Kromer(InfoChimps 创办人之一)所描述的:“web 从一个对每件事都了解一点的场所发展成为对一件事了解其全部的场所”。Kromer 继续以这个场景为例,有朝一日,棒球迷想要了解在过去 100 中每场比赛的细节(球员详情、比赛得分、比赛场地)。如果要在同一时段为所有气象站联合数据集与共享位置值,就可以预测一个 38 岁的投手在 90 度的高温的情况下、在 Wrigley Field 赛场的表现如何。

Big Data 生态系统

需要指出的重要一点是:Big Data 空间仍然相对较新,要利用这些机会,仍然有一些技术障碍。正如上面所提到的,数据在 Hadoop 中以 “作业” 形式处理,这些作业是使用一个名为 map/reduce 的范式、通过 Java 编程语言编写的。尽管开展了一些工作来促进 Hadoop 允许使用其他语言,但正确地理解如何分析业务问题,并将其分解成可以作为 map/reduce 作业运行的解决方案,仍然不是一个简单的过程。

要真正利用 Hadoop 周围的机会,就需要大量的支持技术来将 Hadoop 移出开发人员的视野,使其接近更广泛的观众。

图 1. Big Data 生态系统概述

一个生态系统的出现提供了围绕 Hadoop 的工具和支持。每个组件同其他组件一起提供很多方法(如下所示)来实现大多数用户场景。

时间: 2016-03-01

用Big Data挖掘新的业务洞察的相关文章

新联邦业务数据湖为颠覆大数据应用铺路

文章讲的是新联邦业务数据湖为颠覆大数据应用铺路,EMC公司今天发布联邦业务数据湖.这套完整的工程解决方案包括来自EMC信息基础设施.Pivotal和VMware的领先的存储及大数据分析技术,帮助客户利用大数据的新世界,从而扫清通向新洞察和颠覆性差异化道路的障碍. 方案可在短至七天内实施,联邦业务数据湖可极大简化构建一个数据湖所需的大量复杂任务,是专为企业需要的速度.自服务和可扩展性而设计,让组织能够通过使用大数据分析,开始更好地进行业务决策.作为一个来自EMC联邦的融合解决方案, 联邦业务数据湖

云计算时代新的业务驱动模式

文章讲的是云计算时代新的业务驱动模式,云计算的机遇对我们做业务的方式具有深远的影响,但是我们只是看到了冰山的一角,没有充分地感知云计算这一新范式的所有信息. 新业务驱动模型 随着时间的推移,云计算的新范式已经成熟了.新的技术过程和平台将能够改变组织中面向业务的模型. 今后,不需要提前交付IT服务用以满足业务需求,因为伴随着更加整体.定性研究新范式的到来,业务的理解力正在转变.看待业务驱动模式的方式认为当需要计算服务时,将会按需.快速.高效提供而且成本非常低.因此,业务只需要关心IT容量,关注自身

瑞丽剥离新媒体业务与联通合资成立新公司

新浪科技讯 8月10日凌晨消息,瑞丽将剥离旗下新媒体业务,与联通共同建立合资公司,瑞丽将拥有其中51%的股权.新公司已有初步的融资和上市计划.结合此前腾讯洽购YOKA时尚网的消息,时尚女性网站的整合季似乎正在开启. 瑞丽与联通筹建合资公司成立已有八年的瑞丽新媒体业务,即将进入 新的发展时期.据瑞丽新媒体业务原负责人公开透露,瑞丽将与联通成立合资公司.其中瑞丽将把新媒体业务剥离到新公司中,而联通方面也将为此进行注资.有消息显示,新公司中瑞丽将掌握大约51%的股权,而联通则占有剩余的49%股权.消息

三五互联艰难转型:新旧业务不济

收购被疑关联交易 新旧业务不济夷施厦门三五互联科技股份有限公司(下称"三五互联",300051.SZ)因为收购中金在线而引发股价连连飙涨,不过,这家市盈率超过660倍的公司本身的业绩却和股价成反比.关联交易的质疑为其扩张蒙上了阴影.从5月6日至今,三五互联股价已上涨44.18%.然而,正在向移动端转型的三五互联正处于尴尬境地,不论是传统业务,还是曾被寄予厚望的新业务都没有给公司带来增长.一位接近三五互联的人士对<第一财经日报>记者说,移动终端业务耗费了该公司大量财力物力,如

以企业管理软件知名的用友集团正在进行一轮新的业务模式尝试

以企业管理软件知名的用友集团正在进行一轮新的业务模式尝试,该集团董事长王文京在同搜狐IT交流时称,科技业未来呈现的趋势将是数据驱动企业,用友正在基于这一理念进行创新和调整,新的产品将很快推向市场. 在王文京看来,数据正在面临一场革命,大数据.云计算.移动互联以及社交网络在内的IT技术的演变都是社会.企业.个人不断数据化,而技术的进步则使得数据处理能力实现了巨大量级的跃进,一场数据革命已经发生了. 鉴于数据越来越重要,王文京对数据进行了重新归类,他提出,"数据"是继财务.人力.知识产权以

AMD平台服务央视国际奥运新媒体业务

举世瞩目的第29届奥运会盛大上演.央视网作为http://www.aliyun.com/zixun/aggregation/33109.html">中国大陆和澳门地区2008北京奥运会唯一官方互联网/移动平台转播机构,开通了奥运频道,AMD解决方案被授予"央视网2008高清新媒体指定计算平台". 互联网用户和手机用户可以在电视之外,通过奥运史上第一个集互联网.手机等新媒体的官方转播系统--奥运新媒体 业务系统更方便地看到央视网的奥运会赛事转播. 2008年7月初,上千台

汉王科技新主打业务盈利尚不明

摘要: 如果不是2012年通过变卖优质资产"汉王智通"扭亏,汉王科技可能要直面"被ST"的现状 理财周报记者 黄剑/北京报道 今年上半年,汉王科技(002362.SZ)继续亏损3386万,正如其预测的发展 如果不是2012年通过变卖优质资产"汉王智通"扭亏,汉王科技可能要直面"被ST"的现状 理财周报记者 黄剑/北京报道 今年上半年,汉王科技(002362.SZ)继续亏损3386万,正如其预测的发展轨迹一样.这家2010年3月

汉王科技:新主打业务盈利尚不明

摘要: 如果不是2012年通过变卖优质资产"汉王智通"扭亏,汉王科技可能要直面"被ST"的现状 理财周报记者 黄剑/北京报道 今年上半年,汉王科技(002362.SZ)继续亏损3386万,正如其预测的发展 如果不是2012年通过变卖优质资产"汉王智通"扭亏,汉王科技可能要直面"被ST"的现状 理财周报记者 黄剑/北京报道 今年上半年,汉王科技(002362.SZ)继续亏损3386万,正如其预测的发展轨迹一样.这家2010年3月

中国联通推新彩信业务“乐媒”

中国联通12月28日在北京发布新彩信业务"乐媒"."乐媒"是传统彩信的升级,用户可以快速编辑和发送图像.音频.视频等多媒体信息.公司个人客户部总经理周山表示,未来推出的联通3G和2G主流机型都将 预装客户端. 据介绍,"乐媒"具有容量大.操作快捷等特点.传统彩信仅支持100Kb容量的发送,2010年随着中国联通彩信中心升级完成,"乐媒"将能支持300Kb容量的彩信.用"乐媒"业务可以录制发送30分钟的语音.