重磅:如何不花钱就成为数据科学家?

从白宫雇佣DJ Patil作为第一位首席数据科学家到联合国运用预测分析来预报可能发生在学校中的爆炸事件,无论何时何地,大数据、数据科学和预测分析都是最热门的话题。

每个月都有很多家创业公司如雨后春笋般出现,让我们即使耗尽想象力也难以完全理解当下的技术会如何改善我们的生活以及我们所做的一切。数据科学的市场需求巨大,增长态势也如同被打了鸡血一样极为迅猛。

根据领英(Linkedin)的数据,“统计分析”和“数据挖掘”是今年求职者能被雇佣的头两个技能。高德纳咨询公司表示,2015年全球提供给数据科学家及其相关职位的工作机会有440万,单在美国就有190万。一个数据科学相关的工作还可以再创造三个非信息领域的工作,因此总共会产生大约1300万个职位。可问题是你要做些什么才能确保职位,梦想成真?你如何才能成为全球这440万工作机会的合格候选人?

全球至少有50个开设数据科学学位课程的大学,学费从5万到27万美金不等,以及需要1到4年的时间。如果你正想要去读大学,这可能是一个不错的选择。比起其它类似或不那么类似的学科,数据科学有它自己独特的优势。但是,对于发展中国家的人来说,学费过于高昂;同时,对于职场人士,投入几年时间的代价很大。

另外,也有一些不错的暑期课程、研究协会和训练营,它们承诺可以在短时间内让你成为数据科学家。这当中有一些虽然是免费的,但是很难有机会加入,而有些要求博士等高学历,还有些两个月左右的课程却要价1.5万到2.5万美金。对于即将毕业的博士生来说,这些都是能获得一些实战经验的好机会,然而我们目前还不清楚这些短期受训者是否能媲美资深的行业分析师。我个人非常喜欢其中的一些项目,比如Data Incubator,Insight Fellowship,Metis Bootcamp,Data Sciencefor Social Goods 和著名的 Zipfian Academy 项目。

付费资源

在介绍如何不花钱成为数据科学家之前,我提一下我很喜欢几个的付费资源。第一个是Booz Allen公司的探索数据科学项目(Explore Data Science program),费用是1250美元,但是物有所值。第二个是Tim Chartier 录制的《大数据:数据分析如何改变我们的世界》(Big Data: How Data Analytics is transforming the world)DVD,只要80美元,值得一试。

下面两个课程来自麻省理工:一个是《应对大数据的挑战》(Tackling the Big Data Challenges),学费是500美元,这个课程为你提供了坚实的大数据理论基础;另一个是只要100美元学费的《分析学前沿》(The Analytics Edge),课程精辟地讲解了分析法是如何被用于解决日常运营问题。如果你每天可以抽出几小时的时间,那么试试Udacity提供的针对数据分析师的Nanodegree课程,每月支付200美元,6个月左右能完成,他们和facebook、Zipfian学院和MongoDB合作提供这个课程。ThinkFul每月收费500美元的项目是有一个导师实时指导你成为数据科学家。

那么,那些想成为数据科学家,但是负担不起或者进不了竞争激烈和收费高昂的项目的人应该怎么办呢?还有那些来自于发展中国家,想在数据科学这一重要领域提高他们的竞争力,或者即使只是尝试应用这些先进技术改善他们的周边环境、社区和国家的人又该怎么办呢?

免费资源

以下就是我不花一分钱成为数据科学家的“独门秘籍”:

1. 理解数据:单纯的、没有任何背景的数据是没有意义的,也容易让人误解。数据需要有具体的背景才能说明问题。数据就像是一种颜色,需要有一个具体的外观才能证明它的存在。以红色为例,它需要一些具体的外观才能让我们看到,比如红色的汽车、红色的围巾、红色的领带、红色的鞋子或任何红色的东西。同理,数据也需要和它的环境、内容、模型、方法以及它产生、发生、使用、修改、执行和终止的整个生命周期结合在一起。

我还没发现一个数据科学家和我谈数据的时候不提及像Hadoop、NoSQL、Tableau的技术或其它老牌供应商与流行语。你需要与你的数据建立亲密的关系,你需要彻底地了解它。问他人“你的”数据为何出现异常就像是问自己的妻子怀了谁的孩子一样荒谬。我们在与联合国的合作以及确保学校远离爆炸的相关软件中具备一个独有的优势是:对底层数据的控制力。当全世界在使用统计图表讨论这些数据时,我们是那些回家体验数据的人,让它融入我们的日常生活,这些数据的价值、细节和增值,是我们不能在其它地方找到的。对于其它的项目和客户,我们也是同样对待的。

2. 理解数据科学家:不幸的是,“数据科学家”恰好是数据科学这个领域中最容易使人困惑和被误用的词之一。有人将其联想为知晓世间所有事情的神秘预言家;有人认为他们仅仅是统计学家;少数人认为他们只是一些熟悉Hadoop 和 NoSQL的人;还有人认为他们就是一些会做简单测试或是在管理会议中使用很多晦涩难懂的数学和统计学术语的人。甚至于,某些人眼中的可视化控制面板,在另一些人看来只是永无止境的ETL(Extract-Transform-Load,数据仓库技术 )过程。在我看来,数据科学家是一类比数据创造者少一些对科学的理解,比数据生成者少一点对数据的理解的人,而他们恰恰是知道如何把这两部分工作融会贯通的人。一个好的数据科学家应该知道外部有哪些资源可用,应该和哪些人联系,应该雇佣什么样的人,以及采用什么样的技术可以完成工作;可以将商业目标和数据集市(data mart)连接起来,可以把每一个点,从商业利益到人类行为、从数据生成到付出的款项简单地联系在一起。

3. 观看Ted网站上的这13个视频

http://www.ted.com/playlists/56/making_sense_of_too_much_data

4. 观看Hans Rosling的视频,理解可视化的力量

http://www.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen

5. 收听PartiallyDerivative的关于数据科学的每周博客,查看博客中提供的一些有用资源

http://www.partiallyderivative.com/

http://www.partiallyderivative.com/resources/

6. 华盛顿大学的两个课程:

《数据科学入门》(Introto Data Science)和《数据分析计算》(Computing for data analysis)会是个好开头

7. 利用GitHub上的资源,要尽量多读

8. 浏览Measure for America网站(http://www.measureofamerica.org/),了解数据如何起作用

9. 阅读免费图书Field Guide to Data Scienceshttp://www.boozallen.com/media/file/The-Field-Guide-to-Data-Science.pdf

10. 努力完成“如何成为数据科学家”的信息图中的每一个步骤

11. 阅读博客“The DataCamp”(http://blog.datacamp.com/),提高R编程技术

12. 阅读博客“simplystats”(http://simplystatistics.org/),提高统计分析能力

13. 阅读Zipfian学院网站上一篇非常实用的文章“A Practical Intro to Data Science”(http://www.zipfianacademy.com/blog/post/46864003608/a-practical-intro-to-data-science

14. 试着完成“The Open SourceData Science Masters”系列课程

http://datasciencemasters.org/

15. 学习Coursera网站创始人之一AndrewNg的机器学习课程

https://www.coursera.org/learn/machine-learning

16. 尽一切努力完成Coursera上的数据科学专项课程(DataScience Specialization),完成所有9门课以及核心项目

https://www.coursera.org/specializations/jhudatascience

17. 如果你缺乏计算机科学的背景或是想侧重于数据科学中的编程部分,请完成Coursera 上数据挖掘专项课程(Data Mining Specialization)

https://www.coursera.org/specializations/datamining

18. (可选项)根据你想从事的领域,可以参考下面这些专业相关的数据科学课程:医疗保健分析——入门和专项课程(healthcare analytics – intro and specialization), 教育(education), 性能优化(performanceoptimization)和一般学术研究(general academic research)

https://www.coursera.org/course/bigdataanalytics

https://www.coursera.org/specializations/medicaltech

https://www.open2study.com/courses/big-data-for-better-performance

http://www.liebertpub.com/big

19. 如果要了解数据科学应用的部署方面,Coursera上的“云计算”专项课程以及免费的AWS(Amazon Web Services)培训则是“必修课”

https://www.coursera.org/specializations/cloudcomputing

http://aws.amazon.com/training/intro_series/

20. 学习“海量数据挖掘”(MiningMassive Datasets)和“过程挖掘”(Process Mining)这两门顶尖课程

https://www.coursera.org/course/mmds

https://www.coursera.org/course/procmin

21. 27本最好的免费数据挖掘类书籍

http://www.dataonfocus.com/21-free-data-mining-books/

22. 每天阅读Data ScienceCentral,类似这样的文章可以让你在面试中节约很多时间。

23. 尽可能多在Kaggle上参与比赛项目

24. 如果还想更上一层楼,以下这些Coursera上的统计课程会让你脱颖而出:推论统计学(InferentialStatistics), 描述统计学(Descriptive Statistics),数据分析和统计学(Data Analysis and Statistics),Passion driven stats和MakingSense of Data

25. 关注预测分析领域大牛的Twitter:@mgualtieri,@analyticbridge, @doug_laney, @Hypatia_LeslieA, @hyounpark, @KDnuggets,@anilbatra

26. 关注大数据和数据科学领域大牛的Twitter:AlistairCroll, Alex Popescu, @rethinkdb, Amy Heineike, Anthony Goldbloom, Ben Lorica,@oreillymedia., Bill Hewitt, Carla Gentry CSPO, David Smith, David Feinleib,Derrick Harris, DJ Patil, Doug Laney - Edd Dumbill, Eric Kavanagh, Fern Halper,Gil Press, Gregory Piatetsky, Hilary Mason, Jake Porway, James Gingerich, JamesKobielus, Jeff Hammerbacher, Jeff Kelly, Jim Harris, Justin Lovell, Kevin Weil,Krish Krishnan, Manish Bhatt, Merv Adrian, Michael Driscoll, Monica Rogati,Neil Raden, Paul Philp, Peter Skomoroch, Philip (Flip) Kromer, Philip Russom,Paul Zikopoulos, Russell Jurney, Sid Probstein, Stewart Townsend, Todd Lipcon,Troy Sadkowsky, Vincent Granville, William McKnight, Yves Mulkers

这张表里的全部内容需要3-12个月的时间完成,但是完全免费。并且我保证你掌握这些技能后,工作机会就会滚滚而来。即使你只完成了一半,通知我一声,我也可以告诉你接下来该怎么办。现在就看你的了,无论你在哪里,能负担多少,如果你想拥有超过平均水平至少四倍的收入,这就是你接下来该做的事,至少是接下来这十年,这十年中每人每年将会产生20TB的数据,是过去十年的20倍。

原文发布时间为:2015-10-19

时间: 2024-05-06 11:02:37

重磅:如何不花钱就成为数据科学家?的相关文章

天龙八步:8步让你变成数据科学家

OK, 这些步骤不是那么简单.但是,它们都是可操作的,并且大多数步骤都是免费或者花钱很少,只是要你投入时间. 首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧.数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人.目前,数据科学家的典型教育背景是:高中5%,技校5%,大专14%,本科37%,硕士/专业学位31%,博士9%. 第一步:学好统计.数学和机器学习 数学:可汗学院(Khan Academy)的数学,MIT公开课的线性代数:统计学:Udacity和

行业资深专家切身经验——给数据科学家新手的建议

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 本博主关于数据科学的文章有许多篇,系列总结在此博客中: <关于数据科学的那些事> 未来是大数据的时代,成为一名数据科学家是从事这方面研究者梦寐以求的职业,本文是一份给数据科学家新手的建议,关于作者学习数据科学的一些亲身体会. 动力 两年前,我在行业分享了个人从事数据科学的经历.本文原本是为了庆祝自己两年的推特纪念日而写的个人反思,但最终发表在Medium上,这是因为我相信它对许多有抱负的数据科学家是非常有用

伪数据科学家 VS 真数据科学家

如今数据科学书籍.认证和文凭,如雨后春笋般层出不穷.但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了"数据科学"这个新瓶里. 本文选自<数据天才:数据科学家修炼之道>. R语言编程跟伪数据科学为何扯上了关系? R是一种有20多年历史的开源统计编程语言及编译环境,是商业化产品S+的后继者.R一直以来都局限于内存数据处理,在统计圈子里非常流行,并因其出色的可视化效果为人称道.一些新型的开发环境通过创建R程序包或者将其扩展到分布式架构里(比如将

数据科学家实操之路

更多深度文章,请关注:https://yq.aliyun.com/cloud Kaggle最近进行了一项旨在评估数据科学和机器学习当前发展状况的调查. 他们收到了将近17000份答卷,并利用这些答卷做出了大量的分析.对于调查结果的分析报告,我并不感兴趣,我只是想看看这些调查结果是否对我这种想知道如何成为数据科学家的人来说是否有用. 如果你对分析过程并不感兴趣,而只想看看17000个行业专业人士的说法,那么请跳到本文的最后一节阅读结论. 否则,请继续阅读下文,看看我是如何得出结论的. 1. 导入和

ICOME2013见证数据科学家和创业者诞生

本文讲的是<strong>ICOME2013见证数据科学家和创业者诞生,</strong>10月18日,中国云·移动互联网创新大奖赛 2013(ICOME2013)--"玩转大数据"颁奖典礼在北京航空航天大学报告厅举行,包括布谷云提醒.Bench4Q.WESEE.北航ACT队.海马.香港四方创意.HadoopVision等17支进入复赛团队成员,中国云产业联盟单位领导以及数十家主流媒体共同见证了这一时刻.最终,Ideastar.LCLL.rucasu.海马.PD

国内不缺数据挖掘人才,但很难找到数据科学家

摘要: 为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒.阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势.但即使是这个行业的先行者,离大数据时代也还有 "为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒.阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势.但即使是这个行业的先行者,离大数据时代也还有不小的距离." 刚刚过去的2012年,秦予有个很大的遗憾,就是没能招聘到自己想要的数据科学家,浪费了公司给的招人名额.他是支付宝用户价值创新中心的负责人.

美国数据科学家带你看看大数据的未来

从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间.现在再也没有企业怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力.但是,即使17年过去,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化. 从概念到实用.从结构化数据分析到非结构化数据分析,大数据分析技术在不断地进化.虽然国内仍然在关注舆情分析,但是记者注意到,在美国,大数据分析的研究已经进入到了一个全新的阶段,"预测分析

Kaggle首次定义数据科学家:30岁,年薪5万刀,爱Python,最恨脏数据

今日凌晨,全球最大的数据科学社群Kaggle发布了第一份数据科学/机器学习业界现状调查报告.这份调查问卷的受访者囊括了来自50多个国家的16,000+位从业者,根据他们的问卷结果,Kaggle给出了一些有趣的结论: Python可能是机器学习最常用的编程语言,而统计学家更多地使用R语言: 数据科学家的年龄中位数是30岁,而各国差异巨大,比如,印度的受访人比澳大利亚平均年龄年轻9岁: 受访者中硕士学位所占比重最大,但薪水最高的从业者($150k)多数拥有博士学位. 本次报告的发布也别具一格地采用了

数据分析师的基本素养——论如何成为一名数据科学家 Part 2

更多深度文章,请关注: https://yq.aliyun.com/cloud 本文为<数据分析师的基本素养--论如何成为一名数据科学家>文章的第二部分,第一部分请点击这里. Pronojit Saha,数据发烧友 数据科学入门的自学之路 对于那些想要入门数据科学的新手,这里有一份大纲,或许能够为大家提供一些思路.(其内容摘自我的一篇博客:如何获得"基本技能集"-自主学习的方式).我的建议是从下面每项建议中逐一挑选一到两个资料或链接,掌握其中介绍的内容. 基本的先决条件: