在哈佛读大数据科学都学啥
进入大数据时代,对于大数据人才的需求空前高涨,大数据人才需求将有大幅增长,高端人才如大数据科学家的缺口在14万至19万之间;懂得利用大数据做决策的分析师和经理缺口达到150万,越来越多的人投身于研究、分析数据,并把数据作为重要的行事参考依据。Data Science 在这样的时代背景下逐步成为火热的专业。美国很多知名学校已经有Data Science专业,如NYU、Columbia、USC、Rochester、WPI、UMN、GWU等等, Harvard也开设Data Science专业,下面,我们具体来看看Harvard这个专业吧。
项目介绍
数据科学是基于统计方法学,计算科学和广泛的应用领域的交叉学科。该项目将为统计建模,机器学习,优化,海量数据集的管理和分析以及数据采集提供强有力的准备。该项目还将重点关注可重复性数据分析,协作解决问题,可视化和沟通以及数据科学中出现的安全和伦理问题等主题。
项目链接
https://www.seas.harvard.edu/programs/graduate/applied-computation/master-of-science-in-data-science
课程:
A:核心课程
Applied Computation 209a - Data Science 1: Introduction to Data Science
Pavlos Protopapas, Lecturer and Kevin Rader, Preceptor. Fall Term, Mon/Wed 1:30 - 2:45 PM.
Applied Computation 209b - Data Science 2: Advanced Topics in Data Science
Pavlos Protopapas, Lecturer and Mark Glickman, Sr. Lecturer. Spring Term, Mon/Wed 1:30 - 2:45 PM.
Applied Math 207 - Advanced Scientific Computing: Stochastic Methods for Data Analysis, Inference and Optimization
Rahul Dave, Lecturer. Fall Term, Mon/Wed 12:00 PM - 1:30 PM.
Computer Science 207 - Systems Development for Computational Science
David Sondak, Lecturer. Fall Term, Tues/Thurs 12:00 PM - 1:30 PM.
Applied Computation 221- Critical Thinking in Data Science
Jim Waldo, Professor. Spring Term, Tues/Thurs 12:00 - 1:15 PM.
Pavlos Protopapas, Lecturer. Spring Term, Tues 3:00 - 5:45 PM.
核心课程是AC209a,它侧重于Machine Learning和Data Science的基础。这是大多数人在有人说数据科学或机器学习这个词时所想到的。它涉及学习如何执行Exploratory Data Analysis和运行Sklearn回归和分类器。本课程的大部分内容都侧重于理解这些方法以及如何为给定的数据集更好地优化它们(除了做Model.fit(X_train,Y_train))之外,还有一些方法)。另一个课是AC209b:Advanced Topics in Data Science,它是第一个课的延伸。这本质上是关于Steroids的Data Science,其中前几节课从广义加性模型开始,并创建描述数据集的样条。然而,它升级为在Kubernetes Clusters上并行使用Dask运行2,500个模型,尝试在100层人工神经网络上执行超参数优化。
AM207:Advanced Scientific Computing。本课程重点介绍贝叶斯统计及其在Machine Learning中的应用,其中涉及需要无数个小时运行马尔可夫链蒙特卡洛(MCMC)模拟。还有使用贝叶斯定理,甚至涉及观看超人让时间倒退的短视频以展示Machine Learning中的时间可逆性概念。
B:选修课程
STAT 234 Sequential Decision Making
STAT 123 Quantitative Finance
STAT 131 Time Series & Prediction
STAT 139 Linear Models
STAT 140 Design of Experiments
STAT 149 Genereralized Linear Models
STAT 210 Probability I
STAT 211 Statistical Inference I
STAT 212 Probability II
STAT 213 Statistical Inference II
STAT 220 Bayesian Data Analysis
CS 124 Data Structures and Algorithms
CS 165 Data Systems
CS 171 Visualization
CS 181 Machine Learning
CS 182 Artificial Intelligence
CS 205 Computing Foundations for Computational Science
CS 262 Introduction to Distributed Computing
CS 265 Big Data Systems
CS 281 Advanced Machine Learning
CS 282r Topics in Machine Learning
CS 287r Machine Learning for Natural Language
截至申请时间:December 15th.
建立统计模型并了解其能力和局限性
设计一个实验
利用机器学习和优化做出决策
获取、清理和管理数据
为勘探、分析和通信可视化数据
提供可重复的数据分析
管理和分析海量数据集