广州南沙,蕉门水道与红鸟湖之间,一片清水混凝土建筑把湿地、风道和算法装进同一幅画面。
香港科技大学(广州)的大数据智能理学硕士(MSc in Data-Centric Artificial Intelligence Technology)就藏在这片楼群之中。项目两年制,却像一段可并行计算的脚本:上课、实习、论文三条线程同时跑,学生被允许在真实世界的数据里反复调试自己。以下是一份“非官方手记”,写给想把代码写成生活、把生活写回代码的人。
一、课程骨架:把“数据”与“智能”压进同一条流水线
48 学分被切成五段函数,调用顺序可重排,但每条都带返回值:
核心模块(15 学分)
数据科学计算:把 HDFS、Spark、MLOps 串成一条本地-云端可迁移的管道;
高级机器学习:从凸优化讲到 Transformer,作业是复现一篇论文并给出可复现性报告;
深度学习与图模型:把 GNN 用在南沙公交网络,看能否提前 15 分钟预测客流;
人工智能伦理与法律:写一份 800 字市民小册子,解释“算法偏见”如何被量化。
方法选修(9 学分)
三选二:强化学习、因果推断、高维统计。每门课配一张 GPU 卡,学生可以把自己养的实验环境打包成 Docker 镜像带走。
领域选修(9 学分)
金融、医疗、制造、城市四选一,也可混选。近年出现过的组合:
金融风控 + 图神经网络:把跨境人民币交易拼成一张动态图,找异常子图;
医疗影像 + 联邦学习:让三家医院数据不出院墙,也能联合训练肺癌早筛模型;
智能制造 + 时序预测:给家电工厂写一条“备件需求预测”API,把库存周转天数压到 7 天内。
工业实习(12 学分)
整整 12 个月,全职在企。学院先开“需求市集”,学生举牌组队,像选课一样竞标。客户名单每年滚动:阿里、京东、微软亚洲研究院、三星、NAVER、小鹏、广汽、微众银行……实习期间,学生被当作“远程员工”:打卡、领工牌、参加 OKR 评审,年底回校答辩,把 KPI 写成毕业论文的一部分。
毕业设计(3 学分)
可延续实习课题,也可另起炉灶。要求:把“可复现性”写进评审标准——代码、环境、数据、随机种子必须公开,供下一届同学 fork。
二、双导师制度:让“学术线程”与“工业线程”随时通信
每位学生自带两名导师:
学术导师:来自数据科学与分析学域(DSA)或清水湾 CSE 系,负责理论、论文、方法论;
工业导师:来自实习企业,负责场景、数据、工程落地。
两名导师每月开一次“三方例会”,学生做会议纪要。常见场景:学术导师嫌特征工程太粗糙,工业导师回一句“线上 QPS 限 50 ms,只能这么做”,学生把两边需求写成 GitHub issue,再调参、压测、写技术博客,一篇可复现的报告就此诞生。
三、硬件与数据:让“校园”成为可远程调用的算力节点
教学楼地库藏着 200 张 A100/V100,通过 40 G 校园光纤接入广州超算中心;学生账户默认 5 TB 分布式存储,可随项目扩容。
更有趣的是“数据沙盒”:
南沙区把公交 GPS、地铁闸机、共享单车站点脱敏后放进校园集群,供学生做时空预测;
广汽提供 1000 小时自动驾驶路测视频,标注好的目标框超过 2 亿个;
微众银行放出 100 G 合成金融时序数据,用来跑联邦学习原型。
这些数据只在校园网内流转,学生可远程 Jupyter,也能把容器镜像推到集群,毕业时再一键导出。
四、职业出口:让“模型”成为可被社会调用的 API
两年下来,学生简历里会出现三条并行经历:
课程项目:开源代码 + 技术报告;
工业实习:真实 KPI + 线上模型;
毕业设计:可复现 Repo + 公开演讲。
近三届毕业流向大致如下:
互联网与云厂商 35%:阿里云、腾讯、字节、华为、NAVER;
金融与风控 20%:微众、招联、平安、广发、港交所;
车企与制造 15%:广汽、小鹏、博世、西门子;
继续读博 15%:港科大清水湾、EPFL、ETH、UW;
创业与家族企业数字化 10%:把实习项目孵化成公司,已有人拿到 Pre-A;
公共部门与智库 5%:广东省政数局、深圳科创委、香港生产力促进局。
招聘形式多数靠“嵌入式内推”:
秋季“数据开放日”把企业真实数据包提前两周发给学生,48 小时 hackathon 后现场点评,优胜队伍直接收实习面试;
春季“模型答辩”对外开放,企业工程师坐在台下,学生边跑代码边回提问,Offer 常在现场诞生。
五、写在最后:把“毕业”写成一次可复现的 Git Tag
在港科大(广州)读大数据智能,最迷人的不是“跑完模型”,而是“留下痕迹”:
每一次 push,都被 Git 记录;
每一次实验,都被 MLflow 存档;
每一次答辩,都被 B 站直播;
每一次实习,都被写进甲方下一版招标书。









