【DeepL翻译】哪些数据科学技能是重要的

原文链接:

作者:Matt Dancho

2022年3月11日

2021年9月底,大卫是德克萨斯A&M大学的研究分析师。

2022年3月,不到6个月后,他接受了微软的一个职位,担任机器学习支持工程师。在我的一次网络研讨会上,大卫解释说,他刚刚把自己的工资增加了5万美元。

【DeepL翻译】哪些数据科学技能是重要的

我告诉他这只是一个开始:

【DeepL翻译】哪些数据科学技能是重要的

David是如何在微软这样的精英公司找到工作的?

大卫学习了什么技能,使他能够如此迅速地转型?

这篇文章的其余部分将告诉你David是如何做到的。这篇文章包括研究和2个调查,都是为了回答这样的问题…

哪些技能将像David这样的数据科学家与其他人区分开来?如何选择一种语言(你的选择可能会让你吃惊)如何学习这些技能为什么这种学习技能的方法有效

1 将大卫与其他人区分开来的技能

如果你想成为一名数据科学家,你就需要学习如何为组织创造价值。我在这里写过关于数据科学家如何为组织创造价值的文章。但是,一般来说,你会完成一个过程(称为数据科学过程),其中包括学习这些数据科学技能:

【DeepL翻译】哪些数据科学技能是重要的
The skills needed to become a data scientist

大卫学会了这些技能并能够说服雇主雇用他。结果是他的工资立即增加了5万美元,更不用说是在一个他超级兴奋的职业中。

1.2 数据科学的梦想

进一步说,根据Glassdoor的数据,学习这些数据科学技能可以变成126,722美元的职业(如果你像我一样住在宾夕法尼亚州的匹兹堡,我鼓励你查看自己的所在地)。

【DeepL翻译】哪些数据科学技能是重要的
Glassdoor: Data Scientist Earnings in Pittsburgh, PA

但这仅仅是个开始。

就像我告诉大卫的那样,你的职业生涯会加速。

1.3 数据科学家之后是什么?

在数据科学家之后是高级数据科学家。

以下是宾夕法尼亚州匹兹堡的高级数据科学家的职业道路是什么样子的:

【DeepL翻译】哪些数据科学技能是重要的
Glassdoor: Senior Data Scientist Earnings in Pittsburgh, PA

现在我知道你在想什么。”这个工资很好。但是,我永远无法掌握这一系列的技能。特别是在6个月内。”

事实上,你可以。

下面是方法。

1.4 如何掌握学习数据科学

掌握数据科学并不难。它只是需要。

动机:你需要每周投入大约10小时的时间一个计划:你将从大卫和其他几个人那里学到这一点。

2 你需要从选择一种语言开始

你认为谁会赢得这场战斗?

【DeepL翻译】哪些数据科学技能是重要的

嗯,这两者都不是。

因为C++才是真正优越的编程语言。

【DeepL翻译】哪些数据科学技能是重要的

我只是在开玩笑。

但事实上,这其实并不重要。你可以用这两种方法取得成功。

我两种都知道。

我两者都教。

但是,如果我们想真正回答这个问题,我们应该像数据科学家一样解决这个问题。你知道,用数据来支持我们的决定:

【DeepL翻译】哪些数据科学技能是重要的

因此,让我们像数据科学家一样来解决这个问题。

以下是挑选语言的方法

如果我是第一次挑选语言,我会考虑几件事。

该语言对数据科学的作用有多大就业市场的需求就业市场的竞争

2.1 这门语言对数据科学有多大用处?

所以,如果你看一下Python的历史,它明确地说,它是一种通用的、高水平的编程语言。它强调代码的可读性,用较少的代码行来表达概念:

【DeepL翻译】哪些数据科学技能是重要的
GeeksforGeeks: History of Python

同时,如果你看一下R,它是密切仿照用于统计计算和图形的S语言:

【DeepL翻译】哪些数据科学技能是重要的
R-project: What is R?

因此,Python是一种通用语言(但已被改编为数据科学等许多任务),而R是为统计学这一唯一目的而开发的。

但我并不满足于此,所以我又深入地挖掘了一下。以下是我的发现:

【DeepL翻译】哪些数据科学技能是重要的
Python,对机器学习和深度学习来说是很好的,但在报告方面没有达到要求(非常重要),而且像计量经济学这样的重要分析的库也比较少。R:拥有完善的商业分析和数据科学工具。除了深度学习,其他方面都很强。但是,深度学习很少被使用。而当你需要深度学习或额外的API时,你可以将R与Python整合。

所以我把这一票投给R。

2.2 对就业市场的需求

接下来是就业市场对Python和R的需求。目前,Python有21271个数据科学家的工作:

【DeepL翻译】哪些数据科学技能是重要的

而且,有8,713个针对R的数据科学家工作:

【DeepL翻译】哪些数据科学技能是重要的

因此,每1个R语言的数据科学工作,就有2.4个Python的工作。

我把这一票投给了Python。

2.3 就业市场上的竞争

接下来,我们需要考虑的是,为了获得这些工作,你将与多少人竞争。

Python: 有超过8,000,000人知道Python(而且这个数字正在快速增长)R:估计有250,000到2,000,000人知道R,这个数字也在快速增长。

因此,每1个R用户就有可能有4到32个python用户。

【DeepL翻译】哪些数据科学技能是重要的

因此,R类职位的竞争力降低了10倍或更多。Dang!

这一票显然是给了R。

R是一个可靠的选择

R是一个可靠的选择,这也是像大卫这样的学生能够快速过渡到数据科学岗位的原因之一。请记住,你以后可以随时学习Python:

【DeepL翻译】哪些数据科学技能是重要的

Excel如何呢?

在这一点上,我总是收到一个问题,”那Excel呢?”

【DeepL翻译】哪些数据科学技能是重要的

而我的想法是这样的:

你可以使用任何你喜欢的工具,如果它能得到组织的结果–R、Python、Excel、Tableau、PowerBI。所有这些都很好。但是,每个工具都有长处和短处。

Excel作为一个通信工具是很好的

每个人都有它商业人士喜欢它。

Excel有以下的局限性:

不能很好地进行机器学习。机器学习对于建模和解释是必不可少的。不能很好地处理大数据(最大的数据量是100万行,这不是很大)。函数被放在单元格中,这导致了错误和调试困难。

没错,这就是蓝屏死机,我以前在Excel中做数据分析时经常遇到这种情况:

【DeepL翻译】哪些数据科学技能是重要的

因此,请明智地使用Excel。

3 如何挑选一个开发工具

接下来,是时候挑选一个集成开发环境(IDE)了,这只是一个花哨的术语,指的是我输入代码的东西。

【DeepL翻译】哪些数据科学技能是重要的
The RStudio IDE: The thing I type code into

我做了一个调查,看看大家都用什么来做R(如果你想看这些结果,我也对Python做了同样的事情)。

调查1:你最喜欢用什么方式来编写R语言?

【DeepL翻译】哪些数据科学技能是重要的

下面是结果。

这是RStudio的压倒性胜利。

因此,如果你要学习R,请选择RStudio。很简单。

调查2:你最喜欢的Python编码方式是什么?

【DeepL翻译】哪些数据科学技能是重要的

我对Python进行了同样的投票。这里就变得更复杂了。

大约一半人喜欢在Jupyter中编码三分之一的人喜欢VSCode,还有有些人甚至在使用RStudio进行Python编码

请记住,在我LinkedIn上的61,000多名追随者中,许多人可能是关注我的内容的人,因此除了对Python感兴趣之外,还对R编程感兴趣。

但是,对于Python用户来说,选择一个IDE并不是一个简单的决定。

事实上,我收到了一大堆关于Spyder和其他半打随机IDE的评论。

4 如何学习14种数据科学技能

一旦你确定了一种语言和IDE,你就可以开始学习成为一个数据科学家的技能的有趣过程了。

在这一点上,你需要一个计划。为什么?

【DeepL翻译】哪些数据科学技能是重要的

…因为你的目标应该是尽可能快地找到一份数据科学工作。现在的市场很疯狂。但是,市场最终会降温,你会很倒霉的。

4.2 那么软技能呢?

在这一点上,我总是收到这个问题。我现在就能听到:

“马特,你所展示的都是技术能力。那么沟通技巧呢?”

是的–你也绝对需要这些。但你一生都在学习这些。如果你没有,那就把这3样东西加入你的武库。

制作幻灯片在报告中介绍你的发现与人交谈时态度要好。

如果你坚持做这三件事,你就会被提拔。人们会愿意和你一起工作。

尤其要关注第3条(友善)。

4.2 3种学习途径(明智的选择)

【DeepL翻译】哪些数据科学技能是重要的

有3种类型的数据科学学习途径。

那些没有计划的人。这些人是业余爱好者。他们通常会放弃。在35年的职业生涯中,如果考虑到每年仅有的3%的加薪,这让他们损失了800万美元。

那些有一个糟糕的计划的人。他们会花5年的时间。但最终会学会数据科学。他们也会在经济上受到损失,因为他们花了这么长时间来学习数据科学。5年时间,每年12.5万美元,如果考虑到3%的低加薪=损失66.4万美元。哎哟!

那些有特殊计划的人。他们很可能会成功,并能在6个月内完成转型。

现在,请记住,我实际上有一个非常糟糕的计划。而且我花了5年时间。它也让我在经济上付出了很多。但不管怎样。至少我做到了。

但是,像大卫这样的学生有一个特殊的计划。他们在6个月内就成功了。而且,这涉及到作弊。

4.3 作弊是可以的……

而在现实世界中,为了快速学习数据科学,你需要作弊。我的意思是使用一个作弊表。这里是我的R-作弊表,它将帮助你学习你需要的技能:

【DeepL翻译】哪些数据科学技能是重要的
The Ultimate R Cheat Sheet. It's OK to cheat.

以下是作弊的方法。

(1)先学习基础技能(把机器学习留到以后)

现在我知道你们中的一半人要做什么了。

你会直接跳进机器学习。这是一个很大的错误。不要这样做。

而是要学习上图技能。

相反,要学习基础。

【DeepL翻译】哪些数据科学技能是重要的

这些是你每天都要使用的技能。我称它们为80/20技能。

它们是在你的过程中早期帮助你的技能。

比如说:

导入数据。与数据库一起工作,连接到SQL,readr,readxl转化数据。处理异常值、缺失数据、重塑数据、聚合、过滤、选择、计算,以及更多的关键操作,dplyr和tidyr软件包数据的可视化。通过交互式和静态可视化进行交流,ggplot2和plotly时间序列。处理日期/时间数据,聚合、转换、可视化时间序列,timetk包文本。处理文本数据,stringr分类数据。处理分类,forcats包函数式编程。制作可重复使用的函数,采购代码报告。以交互式HTML和静态PDF格式制作报告

这是个诚实的事实。听着,如果你专注于这些核心基础技能,它将使机器学习变得非常容易。

(2)如何学习建模(和机器学习)?

现在是时候卸下训练轮了。机器学习!

【DeepL翻译】哪些数据科学技能是重要的

现在你可能在想…

数学、统计学和算法怎么办?

在这一点上,一个合乎逻辑的问题是–“那数学、统计学和算法呢?”

下面是我的两点意见:

流行的观点:花5年时间学习理论、数学,从头开始学习如何编程实现算法。聪明(快速)的方法:依次学习,在项目中应用学习机器学习

我在学习新算法方面唯一成功的方法是通过实验和应用。

我说的是把数据科学实际应用到我正在做的项目中。

这个过程包括:

将机器学习应用于问题。实验不同的算法,以及在实际应用中看到结果。

如果你在真实的项目上这样做,那么事实上你会学到数学、统计学和算法。

我应该学习哪些机器学习工具?

如果我们回到我的cheat sheet上,在第3页,你会发现我的机器学习工具的链接:

【DeepL翻译】哪些数据科学技能是重要的

我是两个软件包(或生态系统)的忠实粉丝:

Tidymodels:我用它来制作临时模型,然后进行解释。H2O:我用它来进行自动机器学习,并在生产中使用。

另一个(极其重要的)技能是特征工程:

Recipes:拥有预处理工具,可以转换数字数据,并从日期、时间和文本数据中创建特征。

(3)时间序列是个省钱的好办法

接下来,如果你有兴趣成为对你的组织有疯狂价值的人。

【DeepL翻译】哪些数据科学技能是重要的

各个组织都喜欢省钱。如果你能预测未来,那么你就有可能对你的公司非常有价值。为什么?

那么就学习时间序列。

【DeepL翻译】哪些数据科学技能是重要的

预测方面5%的改进可以为像沃尔玛这样的公司每年节省5000万美元。

因此,沃尔玛会花大价钱购买能够帮助他们改善这一领域的人。

我应该学习哪些时间序列工具?

让我们回到cheat sheet上,看看第三页的 “时间序列分析 “和 “预测 “部分:

【DeepL翻译】哪些数据科学技能是重要的

以下是你需要学习的内容:

时间序列分析。处理日期/时间数据,聚合,转换,可视化时间序列,timetk包预测。ARIMA,指数平滑,先知,机器学习(XGBoost,随机森林,GLMnet等),深度学习(GluonTS),集合体,超参数调整,扩展到1000个预测,modeltime包

一旦你掌握了这些技能,那么就该进入生产阶段了。

如何将模型带入生产(生产到底是什么?)

你的模型是没有价值的…

直到有人能用它来做一些有价值的事情,比如…

例子:

打电话给一个因为高投诉量而处于退订边缘的客户在下一个100万美元的零件订单之前,审查更准确的预测信息,而这可能是不必要的。

正是在这一点上,你的努力工作得到了回报。而且你提供了价值。

但你如何给决策者提供他们急需的帮助?

这就是将应用程序投入生产。

应用程序(app)

【DeepL翻译】哪些数据科学技能是重要的
A Shiny Application

真正令人惊讶的事情之一是将模型集成到应用程序中的能力。

我们可以使用应用程序来实现分析过程的自动化。

用户可以简单地点击按钮,使用下拉菜单,并获得信息,所有这些都不需要知道R(或Python)在幕后真正运行代码。

上面显示的特定应用程序是用一个叫shiny的工具制作的。

如何学习shiny

如果我们看一下cheat sheet,我们可以在第2页看到 “Shinyverse”,这是一个R包的生态系统,可以用来创建强大的应用程序,在其背后运行R或Python。

【DeepL翻译】哪些数据科学技能是重要的

5 (作者的广告)如何在6个月内获得50,000美元的薪酬提升

有了我们在这篇文章中所涉及的一切,你就有了学习数据科学所需的所有信息。

但你仍然没有一个快速完成的计划。

事实上,你仍然需要至少2年(或更长)的时间来自学。

但如果你能在6个月内完成呢?

拥有一个你喜欢的6位数的职业,那将是多么惊人的事情?

在这个过程中,每年赚取125,000美元或更多,直到你退休,拥有财务自由去做你喜欢的事情。

请记住大卫的故事–他是如何将自己的工资提高到50,000美元的。

【DeepL翻译】哪些数据科学技能是重要的

大卫是如何在不到6个月的时间里完成不可能的任务的?

以下是他正在做的事情。

大卫是我的学生。

大卫正在我的R-Track项目中学习数据科学。

我也想帮助你。

如果你准备好学习。我已经准备好教了。

下面是方法

【DeepL翻译】哪些数据科学技能是重要的

(0)
上一篇 2022年12月30日 上午9:45
下一篇 2022年12月30日 上午10:04

相关推荐

wx