机器学习的主要算法
监督学习算法
-
线性回归(Linear Regression):
- 定义:线性回归通过拟合一条直线来预测连续变量的值。
- 数学表示:( y = \beta_0 + \beta_1 x + \epsilon ),其中 ( y ) 是预测值,( x ) 是输入特征,( \beta_0 ) 和 ( \beta_1 ) 是回归系数,( \epsilon ) 是误差项。
- 优化方法:最小二乘法、梯度下降。
-
逻辑回归(Logistic Regression):
- 定义:逻辑回归用于二分类问题,通过逻辑函数将线性回归的输出映射到概率值。
- 数学表示:( P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x)}} )。
- 优化方法:最大似然估计、梯度下降。
-
支持向量机(SVM):
- 定义:SVM通过寻找最优超平面,将数据点分隔到不同的类别中,分类间隔。
- 数学表示:( f(x) = \text{sign}(w \cdot x + b) ),其中 ( w ) 是权重向量,( b ) 是偏置。
- 优化方法:二次规划、核方法。
-
决策树(Decision Tree):
- 定义:决策树通过递归地将数据划分成子集,构建树状模型进行分类或回归。
- 关键概念:信息增益、基尼指数、剪枝。
- 优化方法:贪心算法、剪枝技术。
-
随机森林(Random Forest):
- 定义:随机森林是由多棵决策树组成的集成模型,通过投票或平均提高预测性能。
- 关键概念:袋装法(Bootstrap Aggregating)、特征随机选择。
- 优化方法:并行计算、特征重要性评估。
-
梯度提升树(Gradient Boosting Trees):
- 定义:梯度提升树通过逐步构建决策树,每棵树修正前一棵树的误差,形成强大的集成模型。
- 关键概念:残差、学习率、正则化。
- 优化方法:梯度下降、早停。
无监督学习算法
-
K均值聚类(K-Means Clustering):
- 定义:K均值聚类通过迭代优化,将数据点分配到K个簇中,使簇内数据点的相似性。
- 数学表示:最小化簇内平方误差和。
- 优化方法:迭代优化、初始中心选择。
-
层次聚类(Hierarchical Clustering):
- 定义:层次聚类通过构建层次树状结构,将数据点逐步合并或分裂成簇。
- 关键概念:凝聚层次聚类、分裂层次聚类、距离度量。
- 优化方法:凝聚算法、分裂算法。
-
主成分分析(PCA):
- 定义:PCA通过线性变换,将高维数据投影到低维空间,保留数据的主要变异信息。
- 数学表示:投影方差,重构误差。
- 优化方法:特征值分解、奇异值分解。