2019数据科学岗求职百科全书.pdf
如果你想要将数据科学家作为未来的职业,了解Day-To-Day(每天的)工作职能是非常有必要的。一般而言,数据科学家的工作类型,可以分为这三大类。
也就是说你所做的模型和分析,都是和产品相关的,你的职责是和PM 一起来,不断完善这个产品。具体如何做呢?
首先,Defined Product Related Metric(定义产品相关的标准)。其次,是Create Test Models to Improve Metric(不断测试或者做模型,来优化你设计的Metrics)。
简单的说,如果你是做Social Media(社交媒体)产品的,你会很在意Engagement Rate(参与率),如果你是Retailer(零售商),你会在意Daily Visitors(每天的顾客数),或者是门店的每天产品销售量。
最后,Deliver Product Improvement, Propose New Features(提供产品改进方案,提出新功能)。这个和Digital (数字化)更加相关,因为Digital Product(数字化产品)可以更快地迭代发布新的Features(功能)。
做产品相关的Data Scientist,你需要去分析你的客户数据,市场的数据,看产品现有的反馈,看如何迭代产品。一般而言,30%的 时间做分析,30%的 时间做Testing(测试),30%的 时间做Modeling,剩下10%的时间是做Pipeline(数据管道),Implementation(实现模型)和Communication(沟通)。在这个过程中,你需要和Product Manager(产品经理),Engineer(工程师),Researcher(研究员),UX Designer(交互设计师),Data Engineer(数据工程师)这些人协作,因此Communication Skill (沟通技能)是非常重要的。这也是为什么很多时候,面试官会问你在过往的Project(项目)中,如何和其他人合作。
为什么强调这种Data Scientist职位,是因为这个职位负责的事和钱息息相关的,还需要一些特别的技能。
做营销相关的Data Scientist,你有哪些职责呢?
1.Define Marketing/Sales Estimate Metrics
定义营销和销售审核的指标
2.Discover Ways to Improve The Metrics
探索改进指标的方法
Implement Model Based On The Definition
根据定义实现模型
3.Make Recommendation To Marketers, Sales Person
给营销者和销售人员提出优化建议
将此类数据科学家单独列出来,是因为Product Related(产品相关)的数据标准,会因为产品的不同,Metrics会不同,而Marekting Related (营销相关的)数据分析的Metrics,大多数公司都类似。
如果公司有Email Marketing(邮件营销),那么分析的指标有Click Through Rate(点击率),如果是做Digital Ads(数字广告)或者Programmatic Buying(程序化购买),肯定是Cost Per Thousand (CPM,每千次成本) 或者Cost Per Impression(千次曝光成本)。
在第二步探索改进指标时,用的方式则是Marketing Mix Modeling (营销组合模型) 和Attribution Modeling(归因模型),这个行业已经非常成熟,所以希望求职者是有相关的Marketing Related Skills(营销相关的技能),有很强的营销和销售,或者相关的商业知识储备。当然,这些是附加在Data Scientist的核心硬技能上,也就是Data Manipulation(数据处理),Modeling(建模),Statistics(统计学)的基本能力。
第三种是InfraRelated (构架相关的)。这种Data Scientist的工作日常,类似Data Engineer(数据工程师),工作内容:
这个职位更像有着Data Scientist Title的Software Engineer,面试时很可能会考Computer Science(计算机科学)相关的技能。这种职位,要求比较高,薪资自然也不错!
职图众多导师都来自于如Amazon,Facebook,Linkedin等名企,想要了解更多,可以报名参加Data Science 实战VIP项目
有什么样的工作机会?
从上面的三种工作类型中,你可能已经了解自己更适合哪一类,那么了解自己的喜好后,如何找到对应职位呢?这里有常见的和Data相关的五个职位,也是很多公司在招聘时会放出的Title(职位名称)。
具体职能:
● Define Metrics (定义指标)
● Reports (生成分析报告)
● Test (测试)
Data Scientist 数据科学家
具体职能:
● Advanced Analysis With Modeling (通过建模进行高级分析)
● Testing (测试)
● KPI Improvement (指标优化)
在JD中,我们会发现,Data Analyst(数据分析师)也在Define Metrics(定义指标)和Testing(测试),那么和Data Scientist(数据科学家)最大的区别是什么呢?
Data Analyst的角色更像是一个监控者,本身不会产生对于Modeling(模型)的创建和优化的作用,而Data Scientist(数据科学家)会和Product Team (产品团队)在一起工作,不仅仅需要去监控整个数据分析的过程,更多要去推进产品的优化和迭代,而数据科学家的分析和推进,则很大程度上会影响到整个组最后的成果。
第二点不同是,DS会做更多的Advenced Model Testing(高阶模型),比如说DA侧重于描述性的统计分析,如算 Mean,Avarage,Confidence Interval, Hypothesis Testing;而DS(数据科学家),会做更加深入的分析,比如Development Team(开发团队),他们的产品做了7中不同的Ranking Algorithm(排名算法),DS需要能够评估Model(模型)、甚至是自己亲手去创建这些Model,去判断哪一个是对Final KPIs(最终绩效)最有效的。在这种情况下,DA的技能就不够用了,由DS来做。
具体职能
● Heavy Coding (重编程)
● Implement Algorithm (实现算法)
● Modeling (建模型)
还有一种,会和DS 搞混的,是Machine Learning Engineer(机器学习工程师)。在一些小公司,Data Scientist和Data Engineer,Machine Learning Engineer的职能会有很多重叠的地方,但在大公司里面,就分的比较清楚了。
比如Data Engineer 和Infra Engineer,需要亲手去做Coding,做写Algorithm(算法),他们也会做Modeling(建模),但是他们的模型不是用来分析和沟通,而是作为系统的一部分。需要去写程序,其中有一部分是Modeling,而这个时候就需要Machine Learning Engineer来做了。
具体职能:
● Develop New Algorithm(开发新算法)
● Discover Revolutionary Change To The Company (推动革命化改变)
现在的Machine Learning,是需要调用很多Package(程序包),作为Researcher,很可能需要根据公司需求,重写调研并写一个新的Package供大家使用。因此,Researcher需要对于Algorithm和数学运算了解非常的透彻,超强的Coding Skill,因为很可能全公司几十个Team都依赖你写出来的Package。一般而言,Researcher是由数理知识和技能纯熟的PHD来担任的。
具体职能:
● Implement ML architect (实现机器学习构架)
● Develop modeling platform (开发建模平台)
● Modeling(建模)
Data Infra Scientists是介于Data Scientist和Machine Learning Engineer之间的职位,对于专业技能要求的程度可以按照这种排序:Machine Learning Engineer > Data Infra Scientists > Data Scientist。
数据科学家面试全解析
当你开始准备一个Data Scientist的面试,你需要做什么准备?
● Technical Part (技术部分)
一般会考Data Manipulation(数据处理),最常用的就是SQL。千万不要小看SQL,这是科技公司第一轮面试晒人的关键考点,不夸张的说,20个申请人,19个倒在SQL上。
有人会喜欢用R 或者Python来做Technical,但电话面试时,很多题目都是根据SQL来设计的。
● Analytics Part (分析部分)
一般会给你一个Case study(案例研究),来考察你的Product Sense(产品常识)或者Marketing Sense(营销常识),考的是申请人的逻辑思维,平时积累的行业知识,解构问题的能力。这类的问题没有标准答案,但是会有一个大方向,希望你朝着这个方向去回答。而这些能力,是需要花费很多时间和精力去研究的,在职图项目的一对一导师辅导环节,会有导师来帮你梳理JD,模拟面试,效率更高。
一般会有一个R Mark Down或者是Python的Notebook,是一个公司准备好的数据集,希望你根据定义好的问题,建立Model,评估Model,做出和商业相关的Recommendation(建议)。考的是:
● Machine Learning
● Analytics
Data Cleaning(数据清理)和Model Building(建模) 考的是申请人的Machine Learning Technical Skill(机器学习技能),而分析做出建议则考的是,你是否有商业敏感度和思维的Softskill(软技能)。
有些人可能觉得 Machine Learning难,因为没有处理过真实商业环境中的Case,数据混乱复杂;而有些人硬技能不错,但是不懂如何分析和建议,这更加可怕,因为公司雇用你是希望你创造商业价值的,不只是会建模的“机器”,所以分析能力在准备面试时,同样不可忽视!
实地面试,4-5个面试官,面试之后会给你评分,分为3-5档评分,如果5个人中有人明确给出Strong No(强烈反对),那么这个面试者将无缘Offer。
这一天,这四到五名面试官会考你什么呢?
考点一:Stats的基础知识
Probability Distribution概率分布,概率的计算,Combination排列组合等等。和GRE考的数学题相似,比如班上有50个人,要抽10个人,有多少种类的抽法;或者一副扑克牌中,抽出5张,有多大可能性能抽出一个对子,而另外三张牌的花色和点数各不相同。
Why?因为作为DS,需要面对很多概率的估算,如果统计的基础知识不过关,是无法胜任之后的工作的。
考点二:Coding(编程)
考简单的Python,或者SQL,考的比Phone Interview难,可以试一试LeedCode中Hard的题目,自己能否解出。
考点三:Presentation(汇报演讲)
会需要展示和讲解你Take Home Challenge,来看你的思维和表达能力。作为DS,在工作中有很多情况需要向不同工作职能的协作伙伴们,讲解新的模型或者分析的结果。
而面试官们,还会继续询问相关的问题,看看你是否能够Deep Dive(深入挖掘问题)和应对的能力,以及确保这个Take Home Challenge是自己做的。
考点四:Analytics& Product
这两个会合在一起,或者合在一起考,很像咨询公司会考的Case Interview,比如如果你发现今天产品的Daily Visitor Rate下降了,你作为DS如何帮助公司去解决这个问题。
在这样一天4-5位面试官面试结束之后,HR会收集所有面试官的反馈,并且在3-7天后给候选人反馈。在以上的考察内容中,统计和Coding是平时的积累,而Analytics,Product和Presentation 则是除了平时的积累,也需要在面试前突击准备,反复练习。
Data Scientist必备技能
作为Data Scientist需要具备哪些技能?DS 比较Technical 的职位,以此需要有很扎实的。
Proficiency in Statistical knowledge (熟练掌握统计知识)
统计知识一定要扎实,如果只做调包侠,面试很难通过。具体的知识点有:
1.Probabilitytheory (概览论)
2.Hypothesistesting And Confidence interval (假设检验和置信区间,程度需要烂熟于心,面试官问题随便问!)
3.Statistical Modeling (统计建模)
数据分析的语言和工具的应用也是基础,并且是面试一定会考到的。
1.Python必考
2.R必考
3.Matlab
4.Java, C++ Will Be Huge Plus
1.Product Development (产品开发)
2.Product Testing (产品测试)
3.Product Improvement (产品优化)
刚毕业的学生,需要大家平时多看多想产品商业相关的信息,来增强的;在准备面试的时候,要搜索业界最常见的问题。
Social Media Product (社交媒体产品)就很大程度会问,Engagement rate (参与率)下降你该怎么办?如果是出行App公司,很可能问近期我们乘客叫车的 Successful Rate(成单率) 下降了怎么办?
很多时候,DS不可避免地需要不同的数据结构和算法打交道,所以了解什么是Queue,Stack,Linklist等等,以及现在比较流行的Platform,比如Kafka,Hadoop。如果你的职位是Infra Related,或者要和海量数据打交道,那么以上知识是必须。
可以说Data Scientist 的求职准备是庞大而且繁琐的
而职图的Data Science 实战VIP 项目就是结合Data Scientist Interview来研发和设置的课程的体系的。不仅带着同学们实战、刷题,还会一对一导师辅导让学员们提升对行业的认知、Presentation、商业化思维等软技能。
Data Science 实战VIP项目亮点提前看:
三位一体教学模式,名企内推无缝衔接
● 体系化梳理理论知识
○ 根据美国科技公司需求研发的知识系统课程设置
○ 夯实行业核心理论知识和面试必考知识点
○ 系统梳理数据科学常用语言的核心基础
● 全方位提升实战技能
○ 行业知名导师带队, 确保传授第一手经验
○ Dataset深度挖掘,SQL,Python,R等数据语言实战操作
○ 体验Machine Learning完整流程,亲历数据科学家工作的日常
● 高效补充面试软实力
○500强导师一对一简历精修,技术面试题分析指导
○ 500+公司战略合作, 优秀学员直推名企,冲刺Offer
文章来自careertu