机器学习是一个涵盖多种技术的总称,这些技术通过训练模型识别数据中的模式,以适用于预测和分类等一系列应用。作为人工智能的一个分支以及数据分析和模型构建的工具集,近年来随着技术本身的发展、计算能力的进步以及可供分析师使用的数据量激增,机器学习已获得显著普及。在许多风险管理场景中,正如生活的其他方面一样,海量的可用信息及其研究问题的性质暴露出传统统计技术的局限性。例如当观测数量极大时(数以万计甚至更多),假设检验就会出现问题,因为参数估计的标准误会趋近于零。这意味着无论原假设是否有效,大多数都将被拒绝,且经济意义微不足道的预测变量仍会呈现高度统计显著性。机器学习技术具有更强的灵活性及更全面的模型设定,能够揭示标准线性模型可能忽略的变量间的非线性交互关系。
机器学习与经典统计计量经济学的模型构建方法存在显著差异。后者通常假设数据生成过程可以基于某种经济或金融理论进行近似描述。分析师需预先确定模型结构和纳入变量,计算机算法的作用一般仅限于参数估计和显著性检验。根据结果,分析师判断数据是否支持预设理论。而机器学习则让数据自行决定应纳入模型的特征,分析师并非检验关于模型的特定假设。
机器学习无处不在,其应用领域包括:股票筛选、图像识别、游戏竞技、自动驾驶车辆运营、医学研究、信用评分和欺诈检测。机器学习正在影响几乎所有的金融决策。机器学习方法可分为以下几类:
• 无监督学习:专注于在无明确目标的情况下识别数据中的模式。这类方法可对数据进行聚类分析,或寻找能解释数据特征的少量核心因子。
• 监督学习:专注于预测任务,主要分为两种情形。其一是预测变量值(如房屋价格),其二是对观测对象进行分类(如将贷款划分为"正常还款"与"违约"两类)。该方法需依赖"已标注"数据供算法学习。以房价预测为例,训练数据需包含房屋特征(地块面积、居住面积等)及其成交价格(标注值);在贷款场景中,则需包含贷款特征(借款人收入、信用评分等)及其实际违约状态(分类标签)。
• 强化学习:专注于在动态环境中进行连续决策,通过试错机制不断优化决策策略。
从定义来看,无监督机器学习不直接用于生成预测,初看似乎价值有限。但该技术能有效刻画数据集特征并解析其内在结构,具有重要应用价值。例如在异常检测领域,银行通过无监督学习识别可疑交易特征,这些特征可作为后续调查的依据。在此类场景中,银行虽无法先验判定关键变量,但通过凸显某些交易区别于其他交易的特性,能够为后续训练和开发反欺诈模型提供宝贵信息。
监督学习存在诸多应用场景。在变量值预测方面,既可用于时间序列分析(例如预测明年国民生产总值或标普500指数走势),也可对样本外数据点进行横截面预测(例如推测邻居挂牌公寓的合理估值)。在分类任务中,一个成功范例是信贷决策场景——贷款机构需要根据信用风险将潜在借款人进行"可授信"与"不可授信"的分类。
强化学习在风险管理领域应用广泛:例如确定大宗股票交易的最优执行策略、构建投资组合管理方案,以及对衍生品组合进行对冲操作等。









