美研统计及DS申请指南及案例解析
分类:专家指南2020-02-19
随着大数据时代的来临,很多和大数据分析、数据科学相关的研究生专业越来越受到留学生的喜爱。统计与DS的申请人数也逐渐增多。对于美国的统计专业和DS大数据专业研究生的庐山真面目到底是怎样的呢?本文将从项目介绍、就业趋势、申请要求、案例分享四大方向来与同学们分享~
项目介绍
统计专业(Statistics)最早作为数学专业的一个分支,通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,来进行推断和预测,为相关决策提供依据和参考对数据的研究和分析。统计学的应用范围几乎覆盖了社会科学和自然科学的各个领域,从美国大学的设置来看,统计已经慢慢从数学系中独立出来,成为单独的统计系。
相比之下,数据科学是一个相对新的概念了,data science本身是一个合成词,最早于2001年出现在一篇很著名的文章:Data Science:An Action Plan for Expanding the Technical Areas of the Field of Statistics。从这里我们能看出,其实一开始,DS便被定义为统计科学的一个延申。数据科学起源于统计学,就好比电子工程学是起源于物理学一样。当然他之所以可以这么发展,本质上还是计算机技术大发展的结果。
大约从2009年开始,“大数据”就成为了互联网信息技术行业的流行词汇,无论是手机、平板电脑还是各种设备的数据传感器,以及物联网、云计算、移动互联网这些概念都与大数据有关。数据科学这个概念,也是自从大数据概念崛起成为了数据领域的讨论热点。
笼统的讲,data science基本上等于stat+CS,比如你是一个数学major,计算机minor的学生,申请背景就非常合适。当然这个概念也对也不对。因为如果真正要做data science,其实是data science=stat+CS+domain knowledge(领域知识)。比如你要用大数据去搞金融,就一定要懂一些金融。如果要用它搞工业制造,就一定要懂些工业制造。你不懂金融,自然不知要采何数据,而且这些数据之间如何去建模。
统计和data science在美国研究生院校里的具体项目情况
01 统 计 (强势院校解析)
课程设置
stanford ms的统计项目涵盖了graduate-level的统计课程,大类有applied foundation、theoretical foundation、computational foundation、职业发展的foundation,还有涉及其他领域的课程比如法律、天文生物以及更细分领域的课程。课程如:样本设计、数据挖掘、随即过程、建立统计模型、模型选择、时间序列、非参数统计方法、蒙特卡罗法、生存分析、空间统计、贝叶斯推论、各种经典的统计模型的学习、各种概率论理论等等。
UCB的ma项目更偏实际应用解决实际工业难题的,而不是理论研究,所以不针对想要读phd的学生。项目时间一年,两个学期,第一学期学probability,theoretical statistics and statistical computing(STAT201a是Introduction to Probability at an Advanced Level;201b是Introduction to Statistics at an Advanced Level;243是Introduction to Statistical Computing);第二个学期(230是linear models)
02 Data Science 大数据
data science只有12年的历史,最早由北卡州立于2007年开设MS in Analytics项目,之后康奈尔、西北、卡梅、纽大等高校也陆陆续续开放该项目。截止2019年,已经有255个相关项目,主要分三类:Analytics、Business Analytics and Data Science。Business Analytics一般开设在学校的商学院下。Data Science2013年作为Analytics的相似专业出现。项目分位online,full-time,part-time三种。下面举例两所项目进行介绍:
哥大DS
哥大的ds项目是14年开始开设的,由工学院成立并开设data science institute,与其他12所学院包括文理学院、医学院、商学院、法学院等共同培养数据科学专业人才。是结合了统计、cs等其他专业的资源开设的系。项目长度一年半,一共30个学分,non-thesis。课程设置上,核心课程包括cs和统计两部分,cs核心是算法以及并行计算系统,stat上是统计推断、机器学习,其余还有exploratory data analysis和visualization。选修可以选修其他所有专业的课程,只要advisor批准即可。根据以往的学生反馈,此项目适合没有什么cs基础、但是有较好数学基础的同学,无论想挑战较难课程的学生还是仅仅想水一下的学生都可以选到合适的课程。

纽大DS
纽大ds项目被归属于Graduate School of Arts and Sciences学院,其Degree名称为Master of Science in Data Science。项目要求学生完成36个学分,包含18个必修学分和18个选修学分。项目长度一般为两年,4个semesters,平均每个学期修9个学分。同学们可以利用好学期中途的暑假时间寻找实习机会,为自己积累工作经验。

有能力并且想要提前毕业的同学,可以将所有课程压缩至3个semesters,一年半毕业。但想要提前毕业的同学一定要做好抗压的准备,一个学期修15个学分的课业压力会大很多。且据就读师哥师姐反馈,DS项目的各种课程都比较难,提前毕业的挑战难度会很大。强烈建议同学们把DS-GA-1003Machine Learning and Computational Statistics,DS-GA-1005 Inference and Representation,DS-GA 1008:Deep Learning(Elective Course)这三门课程学好,这三门课非常扎实,基本上能让学生对所有Data Science领域里各种算法原理都了解一遍且会带领学生从源头实现各种Machine Learning的算法,既有很多公式推导证明,又有这些公式理论的代码实现,对学生们的学习和就业都会提供很多帮助。除了必修课程,纽约大学DS项目的选修课程可以说是一大特色。DS项目里的学生可以全校选课,选修课程的options数不胜数,连NYU特别有名热门的stern金融和cs都能较容易地选修。
就业趋势—— 统计&大数据
1.统计的毕业生职业方向有学术研究、银行和金融服务、信息技术、医学研究、经济研究何公共政策等。
2.纽约大学DS项目的就业前景打五颗星——Yann Le Cun。喜欢人工智能的同学应该知道,他在使用卷积神经网络上是大牛。15Fall项目里当时20个中国人除了两个没有找实习的同学,其余找实习的同学全都获得了实习机会。且毕业前已经全体将全职工作的Offer稳稳地拿到手,去的公司都是类似Facebook、Comcast、Amazon、eBay、Blackrock、JP Morgan、Deloitte等全球大公司,担任职务基本为Data Scientist、MachineLearning Engineer或是金融里的Analyst。最终去向和每个人自身原有的职业方向关系较大,Deloitte、Zurich、Black Rock、Amazon、AIG、Facebook、Citi都有。
麦肯锡的一份分析报告指出,到2020年大数据或者数据工作者的岗位需求将激增,其中数据科学家的缺口在140000到190000之间,对于懂得如何利用大数据做决策的分析师和经理的岗位缺口则将达到1500000。对大数据处理需求最旺盛的行业包括:制药业、计算机软件、互联网、科研、IT技术服务、生物技术。事实上,大数据工作者可以施展拳脚的领域非常广泛,从国防部、互联网创业公司到金融机构,到处需要大数据项目来做创新驱动。数据分析或数据处理的岗位报酬也非常丰厚,在硅谷,入门级的数据科学家的收入已是6位数(美元)。
就职岗位有:Business Analyst业务分析师、Data Analyst数据分析师、Data Architect数据架构师、Data Engineer数据工程师、Data Scientist数据科学家、Marketing Analyst市场分析员、Quantitative Analyst定量分析、Statistician统计学家。从Glassdoor提供的数据来看,Data Scientists平均年薪高达$11w+。
DS项目要求申请者上过Calculus I、Linear Algebra、Intro to Computer Science和One of Calculus II、Probability,Statistics or an advanced Physics,engineering or econometrics course with heavy mathematical content课程。项目比较prefer在machine learning,computational statistics,data mining,large-scale scientific computing方面比较有经验的数学与电脑编程能力强的申请者。强烈建议同学们把数学学好,多修类似于统计、机器学习、线性代数相关的课程,多参与到现实大数据的项目中来强化自己的背景。
哥大DS的cpt是在full-time enroll满9个月之后才能使用的,所以第一年除了on-campus的工作和一些unpaid的工作其他都不行。在纽约,就业机会非常多,这方面,学校和学院都会给我们提供很多资源。既有学校的招聘网站,也有院系advisor推送的招聘邮件。重要的是,需要把专业的核心课程都学扎实,这样找工作就不会难。面试data scientist还是最看重machine learning的理论和实践掌握得如何,其次有一些mapreduce的知识,懂得算法和数据结构等等。
已入读学生反馈找的工作中,初创企业里做data scientist较多,也有在投行等领域的big name找到工作的,都是对machine learning这一块要求非常高的,很多人在面试的时候因为没有学过或者掌握得不扎实(多半都是三四月面试,spring的machine learning还没学完、学得不扎实)被刷下来的。所以,现在的课程设置还是贴近industry的要求的,只要认真掌握,机会有很多,从startup到big name应有尽有,毕竟这是nyc。
申请要求:
专业背景
Ø本科是数学,统计,应用数学,自然科学,工程等。统计对专业背景限制不严格。
Ø 大部分院校不硬性要求GRE SUB Mathematics,如果学生有时间准备也可以考,增加实力。
Ø建议掌握三大统计学软件: SAS, STATA, SPSS
先修课
基础课程:
线性代数,微积分(包括单元微积分或者多元微积分),数理统计和概率,高等数学等
高阶课程:
偏微分方程(Partial Differential Equation),随机(Stochastic),回归分析(Regression Analysis),模拟(Simulation),时间序列与预测(Time Series and Forecasting)等
统计类软件:
Statistical Software (SAS, STATA, SPSS)
计算机软件类:
R, Python 等
美国统计学硕士,研究方向基础方面包括:样本设计、数据挖掘、随即过程、建立统计模型、模型的选择、时间序列、非参数统计方法、蒙特卡罗法、生存分析、空间统计、贝叶斯推论、各种经典的统计模型的学习、各种概率论理论等等。应用方面包括:生物统计、环境统计、金融统计、经济统计、遗传统计、农业统计等等。这些是统计在其他领域的应用而形成的研究分支。其中生物统计的发展非常快,现在很多学校都专门设立了独立的生物统计系。
大数据专业DS申请要求,以纽约大学大数据专业为例
NYU DS分数线:
Average GRE Quantitative:167.58
Average GRE Verbal:157.36
Average GRE Writing:3.65
托福最低100分,强烈建议越高越好
案例分享
1.Y同学,浙江大学竺可桢学院,国家奖学金,浙江省优秀毕业生,
录取Stanford统计硕士!多段高含金量国内科研+本科期间有哈佛交流经历;
2.W同学,UIUC本科,Double Major统计+心理学,Minor计算机
GPA3.7+/4.0
录取:UCB Stats;NYU Data Science;Cornell Data Science;USC Analytics;Columbia Stats ;Umich Stats
拒绝:Harvard Data Science;Stanford Stats;Chicago(Waitlist)
软实力:
三段科研+Lab经历
3..H同学,武汉大学,数学与应用数学,GPA:3.7+/4.0,T102,G316,法国交流一学期,北大暑期课程;
录取:Yale (Biostatistics)Chicago(计算机和应用数学专业录取)
