这门跨学科课程在秋季学期进行,是对社会科学定量研究的综合介绍。本课程侧重于社会科学研究的基本思想,包括不同研究设计的优缺点、对当代和历史背景数据的解释以及评估证据的策略。大部分课程由为期两周的单元组成,检查特定的研究设计,并附有一组利用该设计的学术文章。主题包括:社会科学的“科学”和统计模型的作用、因果关系和因果推理、概念和测量、理解人类决策、随机化和实验方法、观察和准实验、抽样、调查研究以及与档案数据。
数据分析课程涵盖使用统计程序 R 的社会科学研究中使用的特定统计工具。要涵盖的主题包括统计数据结构、基本描述、回归模型、多元回归分析、相互作用、多项式、高斯-马尔可夫假设和渐近性,异方差和诊断、二元结果模型、朴素贝叶斯分类器、有序数据模型、名义数据模型、一阶差分分析、因子分析以及基于 OLS 的模型审查。先决条件:介绍性统计课程,包括线性回归。
计划攻读数据科学重点的学生才需要参加本课程。本课程是对概率和统计的独立介绍,重点是数据科学。涵盖的主题包括概率论和统计推理的基础知识,包括:概率模型、随机变量、有用分布、期望、大数定律、中心极限定理、点和置信区间估计、最大似然方法、假设检验和线性回归
先决条件:计算机编程课程。本课程涵盖探索性数据分析的可视化方法,重点是在高维数据集中查找模式的图形技术。我们考虑来自各种领域的数据,这些领域的数据本质上可能是连续的、分类的、分层的、时间的和/或空间的。我们涵盖了选择、解释和评估模型/算法的视觉方法,例如线性回归、时间序列分析、聚类和分类。
本课程介绍机器学习的有监督和无监督技术。我们将涵盖机器学习的概率和非概率方法。重点将放在分类和回归模型、聚类方法、矩阵分解和序列模型上。课程中涵盖的方法包括线性和逻辑回归、支持向量机、提升、K 均值聚类、混合模型、期望最大化算法、隐马尔可夫模型等。我们将在需要时介绍用于优化的算法技术,例如梯度和坐标下降方法。
QMSS 选修课:
时间序列、面板数据和预测 (QMSS GR5016)
本课程将向学生介绍时间过程回归分析背后的主要概念和方法,并强调使用时间顺序数据的好处和局限性。学生学习时间序列数据和纵向(或面板)数据的互补领域。本课程没有正式的先决条件,但假设对 OLS 回归的机制和解释有扎实的理解(我们将在课程开始时简要回顾一下)。要涵盖的主题包括面板数据回归、汇总横截面数据的概率和对数回归、差异中的差异模型、时间序列回归、动态因果效应、向量自回归、协整和 GARCH 模型。统计计算将在 R 中进行。
高级分析技术 ( QMSS GR5018)
本课程旨在培养学生掌握社会科学领域的高级定量技术。统计计算将在R中进行。 主题包括:多元/线性回归回顾、逻辑回归回顾、广义线性模型、有限因变量模型、一阶差分分析、固定效应、随机效应、滞后因变量、增长曲线分析、工具变量和两阶段最小二乘法、自然实验、回归不连续性、倾向得分匹配、多级模型或分层线性模型以及基于文本的定量分析。
数据分析实习 (QMSS GR5052)
该实习课程旨在为学生提供有价值的培训。具体而言,该实习将模拟学生在大型数据密集型机构实习时将面临的典型条件。实习将侧重于大多数实习所涉及的四个核心要素:(1) 培养直觉和技能,以适当地界定模糊的项目想法;(2) 练习组织和访问各种大规模数据源和格式;(三)对大数据进行基础分析和高级分析;(4) 在仪表板、报告、交互式图形或应用程序等内容中交流和“生产”早期步骤的结果和发现。实习还将让学生有时间反思他们的工作,以及如何最好地将其转化为企业、非营利组织、初创企业和其他环境。
Data Mining for Social Science (QMSS GR5058)
课程大致分为两部分: 1. 编程最佳实践、探索性数据分析 (EDA) 和无监督学习 2. 监督学习,包括回归和分类方法 课程第一部分我们将专注于在模拟、数据整理和 EDA 的背景下编写 R 程序。无监督学习专注于结果变量未知的问题,分析的目标是找到数据中的隐藏结构,例如来自购买模式的不同细分市场或来自基因数据的人口结构。监督学习处理结果变量已知的预测问题,例如预测某个社区的房屋价格或国会竞选的结果。
实习(QMSS GR5050 和 QMSS GR5051)
参加社会科学硕士课程定量方法的学生有很多机会在纽约市的各种组织实习。所有实习将根据通过/失败进行评分。 实习必须符合以下标准:
- 它与社会科学定量方法硕士课程关注的核心问题有关。
- 工作是实质性的(虽然学生可能会执行一些行政任务,但我们希望确保他们获得实质性研究的经验)。
- 这是一种实用、专业的体验。
社交网络分析 (QMSS GR5062)
本课程旨在教授学生网络分析的基础,包括如何使用统计软件操作、分析和可视化网络数据。我们将专注于在大部分工作中使用统计程序 R。主题将包括网络规模、密度和联系强度的度量、网络多样性的度量、抽样问题、从整个网络制作自我网络、距离、二元组、同质性、平衡和传递性、结构漏洞、中介、中心性度量(度、介数、接近度、特征向量、beta/Bonacich)、使用网络数据的统计推断、社区检测、附属/二分网络、聚类和小世界;职位、角色和对等;随着时间的推移,可视化、模拟和网络演变。
数据可视化 (QMSS GR5063)
本课程专为跨学科和新兴的数据科学领域而设计。它将涵盖基于图形设计、视觉艺术、感知心理学和认知科学的原理创建有效可视化的技术和算法,以增强对复杂数据的理解。学生将需要完成几项脚本编写、数据分析和可视化设计作业以及一个最终项目。主题包括:数据和图像模型、社交和交互式可视化、原理和设计、感知和注意力、地图和制图、网络可视化。强调计算方法,学生需要使用 R、Javascript、D3、HTML 和 CSS 进行编程,并需要通过 Github 提交和同行评审工作。
社会科学的贝叶斯统计 (QMSS GR5065)
贝叶斯统计方法在社会科学中的应用介绍。将相当重视回归建模和模型检查。使用的主要软件将是 Stan,学生不需要提前熟悉。本课程的学生将通过 R 访问 Stan 库,因此一些 R 经验会有所帮助,但不是必需的。任何 QMSS 学生都被假定具有足够的背景。任何有兴趣参加本课程的非 QMSS 学生都应该具有与 QMSS 学生基本概率相当的背景。涵盖的主题包括微积分和概率、贝叶斯原理、预测和模型检查、线性回归模型、贝叶斯数据收集、贝叶斯计算、Stan、BUGS 语言和 JAGS、分层线性模型、
自然语言处理 (QMSS GR5067)
社会科学家需要使用在计算机科学、工程、人工智能、技术和工业中发现的自然语言处理 (NLP) 方法。本课程将概述自然语言处理在许多领域的应用。目标是熟悉一些使用文本作为数据的关键主题和技术,然后了解如何使用这些 NLP 技术来产生社会科学研究和见解。本课程将是实践性的,有几个大型练习。本课程将首先介绍 Python 和相关的关键 NLP 包和 github。该课程将涵盖语言建模等主题;词性标注;解析;信息提取;标记化;主题建模;机器翻译;情感分析;总结;有监督的机器学习;和隐马尔可夫模型。先决条件是基本的概率和统计,基本的线性代数和微积分。该课程将使用 Python,因此如果学生至少使用一种软件语言进行了编程,则可以更轻松地跟上课程/
社会科学应用数据科学 (QMSS GR5069)
在他现在经典的维恩图中,德鲁康威将数据科学描述为位于良好的黑客技能、数学和统计知识以及实质性专业知识之间的交叉点。作为正常教学的结果,社会科学家拥有所有三者的 uid 组合,但也为混合带来了额外的层次。我们获得了略微不同的培训、技能和专业知识,这些培训、技能和专业知识专门用于理解人类行为,并解释为什么事情会以这种方式发生。因此,社会科学家是一种特殊的数据科学家。本课程是一系列主题,多年来确定了非常具体的差距,即社会科学家在进入数据科学时至少应该知道什么,以及数据科学家应该知道什么才能开始工作并立即为他们的价值增加团队。
社会科学的 GIS 和空间分析 (QMSS GR5070)
本课程向学生介绍基本的空间分析技能。它涵盖了地理信息系统 (GIS) 和数据库管理中的介绍性概念和工具。此外,该课程还向学生介绍了开发和编写原创空间研究项目的过程。涵盖的主题包括:涉及空间、地点和反身关系的社会理论;社会人口学概念和数据库;使用地理信息系统可视化社会数据;社会数据的探索性空间数据分析和空间加权回归模型、社会数据的空间回归模型和时空模型。还将教授开源软件(主要是 R 软件包)的使用。
现代数据结构 (QMSS GR5072)
本课程旨在详细介绍如何访问、清理、“处理”和组织大小数据。(它还应该让学生了解在典型的数据科学面试中对他们的期望。)每周都会在课堂上提供简单、适度和复杂的示例,并附上代码。然后,学生将在家中练习额外的练习。每个项目的终点都是将数据组织起来并进行足够的清理,使其位于数据框中,为后续分析和绘图做好准备。因此,不会教授任何分析或可视化(除了基本的表格和图表以确保一切都被正确组织);这将为所有这些数据争吵的“细节”腾出大量时间。
社会科学机器学习 (QMSS GR5073)
本课程将全面概述机器学习在许多领域的应用。这种机器学习方法与社会科学中使用的更传统的基于回归的方法之间将进行比较和对比。还将重点放在综合这两种方法的机会上。本课程将首先介绍 Python、scikit-learn 包和 GitHub。之后,将讨论数据探索、matplotlib 中的可视化、预处理、特征工程、变量插补和特征选择。将考虑监督学习方法,包括 OLS 模型、用于分类的线性模型、支持向量机、决策树和随机森林以及梯度提升。校准,接下来将考虑模型评估和处理不平衡数据集、非负矩阵分解和异常值检测的策略。接下来是无监督技术:PCA、判别分析、流形学习、聚类、混合模型、聚类评估。最后,我们将考虑神经网络、用于图像分类的卷积神经网络和循环神经网络。本课程将主要使用 Python。以前的编程经验会有所帮助,但不是必需的。先决条件:基本概率和统计、基本线性代数和微积分。集群评估。最后,我们将考虑神经网络、用于图像分类的卷积神经网络和循环神经网络。本课程将主要使用 Python。以前的编程经验会有所帮助,但不是必需的。先决条件:基本概率和统计、基本线性代数和微积分。集群评估。最后,我们将考虑神经网络、用于图像分类的卷积神经网络和循环神经网络。本课程将主要使用 Python。以前的编程经验会有所帮助,但不是必需的。先决条件:基本概率和统计、基本线性代数和微积分。
高级机器学习项目 (QMSS GR5074)
机器学习算法在预测结果和在各种环境中与人类判断相抗衡的能力不断提高。本课程旨在深入了解高级机器学习模型,包括深度学习、图像和文本数据的卷积神经网络、对象检测模型、循环神经网络(时间序列数据)和对抗性神经网络。学生应该熟悉使用 Python、scikit-learn 包和 Github。大约一半的课程将涉及机器学习方法,而课程的另一半将专门针对在关键实质性领域工作的学生,先进的机器学习将证明对这些领域有帮助——如计算机视觉和图像、文本和自然语言处理等领域,和表格数据。学生的任务是在这些领域开发团队项目,他们将开发三个(或四个)有意义的项目的公共组合。在课程结束时,学生将能够通过在实时 REST API 和 Web 应用程序中启动他们的模型来展示他们的工作。先决条件是基本的概率和统计,基本的线性代数和微积分。学生应该熟悉使用 Python、Scikit-learn 包和 Github。









