-
主成分分析(PCA):
- 定义:PCA通过线性变换,将高维数据投影到低维空间,保留数据的主要变异信息。
- 数学表示:大化投影方差,小化重构误差。
- 优化方法:特征值分解、奇异值分解。
-
独立成分分析(ICA):
- 定义:ICA通过线性变换,将观测数据分解成独立的成分,常用于信号分离。
- 数学表示:大化成分的独立性。
- 优化方法:大似然估计、对比函数。
半监督学习算法
-
自训练(Self-Training):
- 定义:自训练通过初始模型对未标注数据进行预测,将高置信度的预测结果作为新标签,迭代训练模型。
- 关键概念:置信度阈值、迭代训练。
- 优化方法:置信度评估、数据增强。
-
协同训练(Co-Training):
- 定义:协同训练通过两个或多个模型互相学习对方的预测结果,利用未标注数据进行训练。
- 关键概念:模型互补性、迭代训练。
- 优化方法:模型选择、数据分割。
强化学习算法
-
Q学习(Q-Learning):
- 定义:Q学习通过学习状态-动作值函数(Q函数),指导智能体在环境中采取优行动。
- 数学表示:( Q(s, a) = Q(s, a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s, a)] )。
- 优化方法:ε-贪心策略、经验回放。
-
深度Q网络(DQN):
- 定义:DQN结合深度神经网络和Q学习,处理高维状态空间的强化学习问题。
- 关键概念:目标网络、经验回放。
- 优化方法:梯度下降、网络更新。
-
策略梯度(Policy Gradient):
- 定义:策略梯度通过直接优化策略函数,大化累积奖励。
- 数学表示:( \nabla J(\theta) = \mathbb{E}[\nabla \log \pi_\theta(a|s) Q^\pi(s, a)] )。
- 优化方法:梯度下降、蒙特卡罗方法。
-
近端策略优化(PPO):
- 定义:PPO通过限制策略更新的步长,稳定策略梯度的训练过程。
- 关键概念:剪切概率比、