数据科学是一门涉及到 统计,数据分析及其相关方法的科学 ,借用数据去“理解和分析实际现象”。 数据科学使用到数学、统计、信息科学和计算机科学等各个学科的技术和理论 ,特别是以下分支:机器学习, 分类, 聚类分析,数据挖掘,数据库和可视化。大多数院校的Data Science属于STEM学科。
数据科学可以应用在哪些领域?--以哥大的数据科学所的研究领域为例:
Financial and Business Analytics 金融与商业分析 (例如数据科学帮助解决诈骗邮件的问题;数据科学帮助解决量化交易收益最 大化的问题;数据科学在大规模商业银行中的应用)
Health Analytics 健康分析 (哥伦比亚大学数据健康分析中心的研究员和教授来自医学、生物、公共卫生、生物信息、计算机、应用数学与统计专业。目标是通过数据驱动的方法和对健康过程的理解来改善个人健康和医疗系统。案例: Real-time Monitoring and Data Visualization for the Management of Intracranial Hypertension in the Intensive Care Unit 重症监护病房颅内高压管理的实时监测和数据可视化)
Smart Cities 智慧城市( 哥大智慧城市研究中心的研究涵盖面很广,例如检测和消除城市基础设施老化的问题,提高智能电网技术,计算和沟通交通拥挤时的交通路线等 )
Computational Social Science 计算社会科学 (哥伦比亚大学计算社会科学研究中心,帮助缺少编程和技术背景的研究人员,解决社会科学的问题。例如利用移动电话和卫星数据绘制贫困地图,解决贫困问题(孟加拉地区))
Cybersecurity 网络安全( 我们致力于开发在整个生命周期内保持数据安全和私有性的能力。该中心与计算机科学和电气工程系,以及商学院合作研究。 )
数据科学主要研究内容有以下三类:
Predictive Analytics:分析数据来预测未来可能发生的事情。
Descriptive Analytics:分析数据找出过去事件的特征和正在发生事件的趋势。
Prescriptive Analytics:分析数据来找出措施、取得最优化的结果。
常见的专业名称有Data Science,Data Analytics,Big Data
Computer Science/Statistics/Analytics (with concentration in Data Science)