综述
大数据时代不光捧红了数据科学这个行业,数据科学家也被称为是 21 世纪最“性感”的职业,数据科学是一个交又学科,也是一种新的概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析",获取数据背后的深刻见解(所谓的 Insights),然后利用这些知识指引方向,帮助数据的所有者做出正确的决策。简单来讲,数据科学是一门将数据变得有用的学科。
什么是Data Science
随着科技的发展,社会拥有数据规模增长很快,每时每刻都有大量数据被产生和存储下来。数据量的增大和数据的多样化也促进了很多公司进行数据分析来支持商务决策。比如在线电商网站如天猫,Amazon会根据你的网页浏览记录给你推荐商品并且调整产品显示顺序,Netfix 会分析客户看影视作品的历史记录来推荐最合适的电影,抖音等短视频软件会根据用户实时的行为来实现下一个视频推荐等等。简单来说,Data Science这个领域要解决的核心问题就是对大量复杂的数据进行处理从而提取有意义的信息来指导对应的商业决策。
Data Science里的五花八门
一般来说,数据科学的职位方向有下面四种:
Data Analyst
这个职位对建模能力要求较低,比较适合刚接触数据科学或者转专业换背景的同学。工作内容偏向于结合数据分析实际商业问题,并将分析的结果转化为切实可行的商业方案,比如定义评价指标,为产品方向提意见等等。岗位所用的工具一般比较基础,最核心的是用SQL 来获取整理数据,用R/Python做简单的分析、用Tableau/Excel作图,在统计和模型方便,懂得基本的回归预测模型等即可满足大部分要求。
Data Scientist
这个岗位的工作内容主要是以建模为主,与Data Analyst相比对编程能力要求较高,不仅需要熟练的SQL技能, 还对 Pvthon/R 等变成有着较高要求。除了要求基础统计知识,对机器学习能力也有要需求,DataScientist一般能独立的完成数据科学分析问题,所以还需要对用数据科学解决问题的流程和方法十分了解懂得如何将复杂的商业问题转化为统计和机器学习可以解决的问题,然后据此设计技术方案,比如各种定价系统,金融行业的Fraud Detection,电商的推荐系统等等。最后 Data Scientist 一般会有不同的领域之分,不同领域也有一定自身领域知识的要求,比如产品,内容,市场,用户等等。
Data Engineering
类似于软件工程师,但是围绕着大数据领域的工程问题。这个岗位对编程技术含量相对较高,工作内容主要是开发大数据的 ETL (提取,转换,存储) Pipeline来处理数据,除此之外对于大数据的生态系统及对应工具(例如: Hadoop, Spark,MapReduce, Splunk, Hive, etc.) 也需要有较好的了解与实践经验。
Research/Machine Learning Scientist
类似于增强版的偏向于研究方向的 Data Scientist,对研究探索能力有较高要求,可能需要解决一些不存在现成方法的问题,或者是需要前沿技术的问题,能独立读 Paper 确定可行方向或者研究计划,一般需要有PhD 学位或者 MS 学位加多年工作经验,这些职位一般更多的是面向有经验的面试者开放。
做Data Science的优点
作为21世纪“最性感”的行业,数据科学有以下优点:
前景
在全球范围内,数据科学需求量都非常可观,提供给求职者很多机会。作为领英上增长最kuai的工作,预计到2026年将创造1150万个数据科学岗位。这使得数据科学成为21世纪“最性感”的行业。
薪资
数据科学是收入top的行业之一。以美国为例,根据Glassdoor网站统计,美国的初级数据科学家每年的平均收入都能达到113,000美元。这使得Data Science成为一个利润丰厚的职业选择。
全面提升硬实力
数据科学的工作需要强大的数学统计知识以及编程技巧,掌握这些技能对于个人成长,以及职业发展都打下了坚实的基础。
工作内容有成就感
数据科学帮助各个行业实现冗余任务的自动化,帮助公司作出基于数据理论的明智决策。各行各业的公司都会依赖数据科学为自身或者客户提供帮助,这让数据科学家在公司中享有重要的地位。
薪酬、工作时长
以美国为例,入门级的数据科学家(Data Scientist)的薪水在$90K-$140K左右,高级数据科学家的薪水可以达到 $250K-$300K,资深数据科学家可以超过$400K
数据科学家的平均工作时间通常比较固定,一般是每周40小时左右,但由于项目的原因,在一些核心部门或者某些时间段可能会有适当加班,显得比较忙碌,但一般不会造成困扰。 但整体而言,数据科学家的工作量并不是很大大,特别是对于有经验的数据科学家。
未来发展路径
数据科学家也是基于技术的职位,在职业生涯阶段可以从入门机数据科学家逐步进阶为中级数据科学家高级数据科学家甚至资深数据科学家。数据科学家的职业中后期也可以转型管理,变成 Data ScienceLead 或者 Data Science Manager, 从而进行更多方向性和领导性的工作。
基于数据科学家技术的积累,如果有很强的工程实践能力,可以转型成 Machine Learning Engineer,如果有很强的分析和研究能力,也可以转型成为 Machine Learning Scientist等。