随着人工智能继续成为越来越多企业关注的焦点,这些组织意识到拥有合适的人员和技能是多么重要。特别是,最近对AI、机器学习(ML)的各种应用、非ML预测分析和其他所谓的“大数据”方法的组织中的数据科学家的需求有了显著的增长,这些方法在企业中继续获得吸引力。事实上,对数据科学家的巨大需求导致了我们在许多企业和组织中看到的人才短缺。然而,在蓝冠注册AI的背景下,可以使用传感器融合来提供从过滤掉嘈杂数据到在随机环境中进行蓝冠软件预测的众多功能。考虑到人工智能项目的80%与数据准备和数据工程活动有关,也许组织真的应该寻找更多的数据工程师而不是数据科学家?
公司正在寻找和竞争日益稀缺的数据科学家。熟练的数据科学家的工资和签约奖金继续飙升,而现在专注于数据科学的代码学院的绝对数量证明了对数据科学技能的巨大需求。然而,这些组织总是需要数据科学家吗?许多企业、供应商和初创企业常常混淆数据科学家和数据工程师的角色。虽然这些不同的角色有一些共同的特点和技能,但它们的核心是工作描述,其中包含两套非常不同的技能,不容易互换。
数据科学家vs数据工程师
在2000年代中期,我们看到了数据科学家的出现。奥莱利的文章中提到:“对数据科学家需求的增长是由大型互联网公司的成功所驱动的。谷歌、Facebook、LinkedIn和亚马逊都是通过创造性地使用数据而出名的:不仅仅是储存数据,还将其转化为有价值的东西。毫无疑问,任何拥有有价值数据的组织都在关注数据科学和数据科学家,以从这些信息中获取更多的价值。
数据科学家起源于统计建模和数据分析,他们拥有高等数学和统计学、高级分析学以及越来越多的机器学习/人工智能方面的背景。毫无疑问,数据科学家关注的是数据科学——也就是说,如何从海量数据中提取有用信息,如何将商业和科学信息需求转化为信息和数学语言。数据科学家需要精通统计、概率、数学和算法,以便从大量信息中收集有用的见解。这些数据科学家通常是出于需要而学习编程,而不是为了运行程序和对数据进行高级分析。结果,数据科学家的代码通常是负责写,自然是最小的,只有必要时完成一个数据科学任务(R是一种常见的语言来使用)和工作最好当他们提供干净的数据运行先进的分析。数据科学家是这样一种科学家,他创建假设,对数据进行测试和分析,然后将其结果翻译给组织中的其他人以便于查看和理解。
另一方面,如果没有大量的干净数据,数据科学家就无法完成他们的工作。提取、清理和移动数据实际上并不是数据科学家的职责,而是数据工程师的职责。数据工程师拥有编程和技术方面的专业知识,以前曾参与过数据集成、中间件、分析、业务数据门户和提取-转换-加载(extract-transform-load, ETL)操作。数据工程师的重心和技能集中在大数据和分布式系统,以及Java、Python、Scala等编程语言和脚本工具和技术的经验。数据工程师面临的挑战是如何从各种各样的系统中获取结构化和非结构化格式的数据,以及通常不“干净”的数据,这些数据有字段缺失、数据类型不匹配和其他与数据相关的问题。这些数据工程师需要使用他们的编程、集成、体系结构和系统技能来清理所有数据,并将其转换成数据科学家可以用来分析、构建数据模型并为组织提供价值的格式和系统。这样,数据工程师的角色就是设计、构建和安排数据的工程师。
虽然数据科学家和数据工程师的角色似乎是不同的,但数据科学家和数据工程师有许多共同的特点和技能。这些重叠的技能包括处理和操作大数据集的必要性、将操作应用于数据的编程技能、数据分析技能以及对系统操作的总体熟练程度。
虽然这些角色有大量的重叠,但是很明显,数据科学家和数据工程师角色的重点仍然是不同的,因此,他们并不是特别可以互换的。更重要的是,在面试和雇佣数据科学家和数据工程师时,你需要确保你问了正确的问题,并从你的候选人身上找到正确的技能。您是否要求您的数据科学家将大部分时间花在数据工程任务上?您是否需要比您的数据工程师所拥有的经验、培训甚至资质或愿望更多的数据科学能力?在数据科学职位的面试中,你会问一些工程方面的问题,还是在数据工程工作的面试中问一些数据科学方面的问题,这会让你的应聘者感到困惑吗?
更重要的是,数据科学代码学院、研讨会和培训的兴起回避了这样一个问题:这些培训和代码学院活动的重点是数据科学背后的科学,还是数据工程背后的工程和编程?或者更糟的是,这些活动是否通过对数据科学进行一些工程研究,而没有充分关注或筛选与会者,从而混淆了整体,从而决定这些个人应该关注哪些重要的大数据和ML分析领域?
虽然看起来您可以在科学角色中做一点工程工作,或者在工程角色中做一点科学工作,但是混合角色可能会对您的组织在ML或数据科学活动中的成功非常不利。那些被迫从事工程工作而没有背景、技能或资质的数据科学家很容易错误配置或误用技术,或者编写效率低下、成本高昂、浪费时间的程序。同样地,要求从根本上具有工程背景的个人学习复杂的数据科学数学,可能会导致组织对其信息得出错误的结论,从而导致灾难性的结果。专业化是很重要的——这就是为什么医生要做检查,而抽血医生要抽血。医生可以为你抽血,抽血师可以了解化验结果,但你为什么要拿自己的舒适和健康去冒险呢?
数据科学家在您的组织中处于什么位置?
如果试图解决需要数据科学解决方案的问题,大多数组织都需要数据科学和数据工程角色。由于这些角色是不可互换的,所以试图寻找一个单一的、神奇的、数据科学家和工程师的独角兽是不合适的。然而,尽管您的组织可能需要多个数据科学家和工程师,但两者之间的比例很少是1:1。对于大多数组织来说,拥有更多的数据工程师比数据科学家更有意义。这样做的原因是,数据科学家已经学会处理大量的干净数据,但是从许多不同的系统获得大量的干净数据可能是多个全职工作。与概念化数据模型和对数据集运行分析相比,移动和清理数据只需要更多的工作。
此外,数据科学家的组织报告结构在组织中可能是不正确的。通常,蓝冠测速创新的移动技术可以促进社会变革。每一项突破都有可能使社会变得更好。蓝冠怎么样?我们认为,他的无线技术使生活充满活力。数据科学家角色向技术团队报告。然而,这是没有意义的。数据科学家(通常)不会询问特定于技术、特定于实现的问题和数据分析。数据科学家所面临的挑战通常是特定于业务部门的。因此,数据科学家应该向业务的战略决策部分报告,这些部分代表数据科学家正在协助的具体业务线。
如果数据科学家是以业务为中心的角色,我们会看到以业务为中心的数据科学家工具吗?
如果数据科学和工程确实是组织中独立的角色,那么将它们所需的工具也视为独立的是有意义的。许多进入数据科学/机器学习领域的供应商正在混淆视听,使事情变得更加混乱。他们说他们的工具是为数据科学家准备的,但是关于这些工具的一切主要是为数据工程师准备的,在上面点缀着一些数据科学,这是没有意义的。对于数据科学家来说,自然环境是在一个分析的、面向数据的、以模型为中心的工具中,而不是在数据清理、移动数据和将数据从私有环境移动到云环境等方面有大按钮的工具中。这就像给一个驾驶教练一辆车的零件,然后说:“自己造这辆车,然后教别人如何驾驶它。”
数据科学家需要的是以数据科学为中心的工具,而不是以工程和编程为中心的工具。现在,这些工具的集合越来越多,它们通常来自于适合数据科学家需求的数据或预测分析环境。然而,更以业务为中心的工具也可能是合适的,特别是随着数据科学家越来越深入业务领域。例如,几十年前,如果您希望以类似电子表格的格式操作大量数据,这就涉及到编程,但是像Excel这样的工具引入了像数据透视表这样的东西,现在业务经理能够执行各种分析。Excel等工具将数据科学功能或以业务为中心的数据挖掘和分析工具嵌入到产品中只是时间问题。
随着数据科学家的人才缺口继续扩大,毫无疑问,我们将看到新的工具出现,这些工具是为了允许非技术人员(即业务人员)运行、测试和分析数据而创建的。战略业务经理将开始学习数据科学,不需要或想要编程或数据集成经验。传统的数据科学家仍然需要运行非常复杂的数据分析。然而,在大多数情况下,蓝冠测速创新的移动技术可以促进社会变革。每一项突破都有可能使社会变得更好。蓝冠怎么样?我们认为,他的无线技术使生活充满活力。由于越来越容易使用的工具,基本分析将更多地转移到业务单元。这意味着我们还没有看到哪种工具或技术将成为企业中ML和数据科学的主导。