五、数据处理流程
-
数据收集
- 来源:数据库、API、爬虫(合规数据)
- 工具:BeautifulSoup(爬虫)、Airflow(调度)
-
数据清洗
- 处理缺失值:插值/删除
- 异常值检测:Z-score、IQR
-
特征工程
- 数值特征:标准化(StandardScaler)
- 类别特征:独热编码(One-Hot Encoding)
- 文本特征:TF-IDF/Word2Vec
-
模型训练
- 划分数据集:训练集/验证集/测试集
- 超参数调优:网格搜索(GridSearchCV)、贝叶斯优化
-
模型部署
- 工具:Flask/Django(API封装)
- 云服务:AWS SageMaker、Google Vertex AI
微信扫一扫









