未来十年数据科学将如何发展？

2019-11-14 |

70 |

原标题：未来十年数据科学将如何发展？

来源：AI 研习社链接：https://www.yanxishe.com/TextTranslation/2221

ok，让我们首先承认，我们现在都生活在数据时代。机器学习和数据分析技术已经成为我们当今生活中必须的部分。那么，接下来是什么呢？

在这篇报告中，我不打算陈述数据科学将会遇到哪一种未来，不管是光明的、幸运的还是没有希望的，或者其他结局。在这里，我将只考虑我遇到的个人和我遇到的人的经历，并结合一些决定性因素来预测一些事情。

无论如何，我决定概述从现在开始10年内的塑造数据科学未来的关键因素。我希望这能给你带来一些关于工作流程的有价值的见解。必须说明的是，这只是我个人的预测。如果你感兴趣，请继续阅读!

数据科学的未来：我如何看待？

1 更多的数据科学策略

数据科学是解决问题的一种定量方法。由于过去缺乏数据和/或处理能力，我们依赖其他东西，比如“专制异想天开”、“专家的直觉”和“普遍共识”。在今天来看，那根本不起作用，并且毫无疑问，10年后，它的效果会更差。数据科学家却正在构建能够发声、预测、预备并给出实际结果的系统。

围绕数据科学技术的泡沫不会趋于破裂。相反，采用数据驱动策略将继续得到普及。越来越多的人会关注数据，从中获得见解，因此，这可能导致将数据科学团队将成为任何成功组织（或至少是大多数成功组织）的组成部门。它甚至可能引起其他部门的竞争，并有望成为最重要的部门。

2 更多定义清晰的角色

因此，数据科学将更受欢迎。而且对于大多数客户来说，数据科学家实际在做什么将更加清晰。如今，数据科学家是一个包罗万象的广义头衔。业内人士目前已使用的定义和描述有点宽泛。因此，对于谁做什么人们有很多困惑。

我们通常将数据角色分成4个不同但是职能有重叠的职位：

● 数据架构师——开发数据架构以有效地收集(采集)、集成、组织、集中和维护数据。

● 数据分析师——处理和解释数据，为一个公司获得可操作的见解。

● 数据科学家——一旦数据的量和速度达到需要复杂技术技能的水平，即进行数据分析。

● 数据工程师——开发、测试和维护数据架构，以保持数据的可及行，并为分析做好准备。

我认为，随着时间的推移，我们会愈发熟悉这所有的角色，由此我们会更好地理解他们之间的区别。更进一步说，客户将对“什么可以实现”、“什么不可以实现”有更现实的期望，并能从工作流程和自身可能受益等方面获得清晰的图景。

3 更多对软技能的需求

随着时间的推移，愈发清楚的一点是，会有很多精通Python或R.（统计性计算和图形的软件环境）的数据科学家。

但是，向管理层推销点子的能力，说服人们相信你的见解值得追求的能力，又从哪里获得？可视化可以提供一半的说服力，但另一半还是需要市场营销的推销能力。因此，我们可能会看到一些具有围绕产品进行关键对话能力的人。因此，那些能够将硬技能与软技能结合起来的人才总是供不应求。

4 更多的数据需要更多的人工智能来处理

现在让我们谈点儿严肃的。我们每天创造的数据量真的令人吃惊。按照我们当前的速度，每天有2.5万亿字节数据产生，但这速度只增不减。只需看由Raconteur制成的信息图中突显的一些关键的每日数据统计：

● 5亿条推文被发送

● 2940亿封邮件被发送

● 4拍字节（拍字节即千万亿或千兆）的数据在Facebook上被创建

● 每辆联网的汽车会产生4TB的数据

● Whats App上有650亿条信息被发送

●（每天有）50亿次搜索

到2025年，预计全球每天将产生463艾字节（2的60次方）的数据——相当于每天212,765,957张DVD的数据量 !

实事求是讲，仅靠数据科学家无法管理和处理这庞大的数据量。很有可能，人工智能将成为一个有价值的工具来帮助数据科学家处理这些数据。用于统计分析和机器学习的自动化工具将变得足够“智能”，可以代替数据科学家完成常规任务，如探索性数据分析、数据清理、统计建模和构建机器学习模型。

5 更少的，少得多的代码

据特斯拉人工智能主管A. Karpathy表示，在不久的将来，我们将不再编写代码。我们只需要找到数据，输入到机器学习系统中。在这个场景中，我们可以视一个软件工程师转变为一个“数据监管员”。未来的大多数程序员将不再拥有复杂的软件库，也不再编写复杂的程序。Karpathy 说，他们将收集、清理、操作、标记、分析和可视化这些由神经网络生成的数据。

机器学习正在引领一种新的计算范例，其中训练机器则是关键技能。当我们继续使ML（机器语言Machine Language）技术大众化，并利用我们的工具达到更高的抽象水平时，我们将看到很多代码都消失了。最终，创建产品的主要步骤将是拖放、落点、指向和单击。这解放了从业者，使其解决问题的方式更加具有战略性和创造性。有看过在Star Trek的编程电脑上那些人的操作吗？就像那样。

这是否意味着像R,Python和Spark这样的工具将变得无关紧要，大多数数据科学家将不需要编写代码来执行统计分析或训练机器学习模型？我不这么认为。不管怎么说，把希望寄托在这方向上的进展是没有什么价值的。你仍然需要理解和知晓所有的过程，机器学习仅仅是促进你的常规任务。

6 应用程序接口（API：Application Program Interface）会用在任何可能的地方

大多数公司都以专注做好一件事而闻名，以此为立足点寻求发展，并将他们对群体的贡献作为开源API呈现出来。在10年内，大多数软件将通过端点落实可视化的方式来精心呈现，以及杠杆化地利用所有必要的设备来创造解决方案。数据科学家将能够快速构建他们的模型集合，一次性构建和测试多种算法，并与整个团队一起可视化地验证结果。这将减少“轮子”的重新设计，在最适当的时候引入深刻的技术性思考。

7 自学成才的教育

传统的学术环境功能变得越来越少。信息经济要求获得迅速变化的信息。人们从3-4年的学历教育毕业后，他们所学的东西已经变得陈旧。人们开始通过掌控自己的学习来自我提升。能幸存下来的机构将会是那些接受在线授课、迅速改变课程内容的机构。学习将基于你的规划来定义，而不是基于缺乏实际应用的基础原理。

Q1:数据科学家会被自动算法替代吗？

根据最流行的CRISP-DM数据分析项目管理方法（ (cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程"），数据分析项目的实施包括6个阶段，每个阶段由分析师或数据科学家直接参与:

● 业务的理解

● 数据的理解

● 数据准备

● 建模

● 评价

● 部署

步骤3和步骤4涉及很多常规工作。要使用机器学习解决特定的案例，你必须不断进行以下工作：

● 配置模型超参数；

● 尝试新算法；

● 向模型添加原始特征的各种表示形式（标准化、方差稳定、单调变换、降维、分类变量编码、从现有特征中创建新特征等）。

在自动化的帮助下，这些常规操作以及准备和清除数据、分析人员或数据科学家的部分操作可以被消除。但是，将保留CRISP-DM的所有其他第3、第4部分和其余步骤，因此这种对分析师日常工作的简化不会对这个职业构成任何威胁。

机器学习只是数据科学家的工具之一，除了可视化、数据调查、统计和计量经济学方法外。即使在其中，也无法实现完全自动化。毫无疑问，数据科学家在解决新算法及其组合的开发和应用中的非标准问题上将发挥重要作用。自动化算法可以对所有标准组合进行分类，并提供一些基本解决方案，合格的专家可以以此为基础并进一步加以改进。但是，在许多情况下，自动算法的结果将是足够的，而无需进行其他改进，并且可以直接使用它们。

如果没有分析师的帮助，人们很难指望一家企业能够利用自动化机器学习的结果。无论如何，都需要准备数据、解释结果和上述方案的其他阶段。与此同时，如今许多公司都有分析师，他们不断地与数据打交道，拥有合适的思维方式，对该领域非常精通，但并不具备必要的机器学习方法。

对于一家公司来说，吸引高素质和高薪的机器学习专家通常是非常困难的，因为对这类机器学习专家的需求正在增长，而且很多时候都供不应求。这里的解决方案可能是为公司的分析师提供自动化机器学习工具。这将是自动化创造的技术民主化的结果。将来，大数据的好处将可用于许多公司，而无需组建高度专业的团队和咨询公司的参与。

Q2：数据工程师会比数据科学家更受欢迎吗?

我认为是时候区分数据科学家和数据工程师了。

前者是受过良好教育的应用数学家，他们研究数据科学，开发新的算法，形式化神经网络，等等。

后者的兴趣领域略有不同，他们知道每种方法的理论和适用范围，并成功地解决了业务问题。

前者总是有事可做，后者的工作可以部分自动化，但不可能完全自动化。新的方法、算法和方法总是会出现。此外，专家对主题领域和数据的性质的理解，对客户的目标的理解，以及快速实现这些目标的能力，都是极其重要的，而这些目标是不能用完全自动化的方法实现的。

数据科学是真实存在的——但是世界正在走向功能数据科学世界，在这个世界里，从业者可以做他们自己的分析。需要数据工程师，而不是数据科学家来支持数据管道和集成数据结构。

智能组织需要智能人才，他们应该知道自己的数据。数据科学家存在的原因是大多数组织还不了解数据。而数据科学家是了解数据的。

如果一个数据科学家提出了一个突破性的算法，而没有数据工程师将其投入生产供企业使用，那么它有任何价值吗?

我将重复我最喜欢的Gartner的统计数据，只有15%的大数据项目投入生产。虽然他们从来没有深入研究为什么85%的大数据项目都没能成功，但我认为他们失败的主要原因有以下几点:

● 他们没有洞察到投入生产的价值

● 他们洞察到并构建了模型，但未能在可重复的基础上在服务级别协议内运行的生产管道

● 他们无需洞察，因为他们想要运行的数据分析并不依赖于某些复杂的模型，但是仍然无法构建一个可以在服务水平协议中可重复运行的生产管道

这就是为什么每个数据科学公司至少需要两位数据工程师的原因。

总结一下:

数据科学家职业的未来仍然是模糊的，还有待于专家的判断。然而，每天都有各种新的库和工具出现，我们绝不是在简化基础设施，同时开发和创建业务模型。很有可能，很多人会说，好吧，但也有不好的一面，我们制造的系统越复杂，它们就越具有随机性和概率性。

目前关于人工智能问题的主要问题是缺乏预测意义上的直觉。我们只有一个定量的方法来解决一个特定的问题，并作出预测，但不是高质量的。到目前为止，这种方法效果很好，但下一步会怎样呢?

------------------------------------------------------------

[ 发起：唐里校对：Pita 审核：笑语 ]

[ 参与翻译（2人）：CONFIDANT、朱慧94 ]

英文原文：How Data Science Will Evolve Over the Next Decade?

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：一文理清深度学习前馈神经网络

下一篇：控制一个通用机械臂—快速入门

用户评价

全部评价