Kaggle大数据竞赛平台
竞赛简介
Kaggle创立于2010年,是全球最大的数据科学社区和数据科学竞赛平台,2017年被Google收购。Kaggle以数据挖掘起家,为了快速高效的解决最棘手的问题,该平台发布了众多数据科学、机器学习相关的竞赛。Kaggle的多数竞赛由企业或者研究机构发布,以竞赛奖励的方式向全球征集解决方案,通过众包的方式解决建模问题,诸如Google、Facebook、Microsoft等知名科技公司均在Kaggle上举办过数据挖掘比赛。对参赛者来说,他们不仅有机会接触丰富的真实数据,解决实际问题,角逐名次,赢取奖金。每年,Kaggle官方还会举办一次大规模的竞赛,奖金高达一百万。Kaggle一直致力于解决业界难题,不以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为优秀人才和公司之间搭建了一座桥梁。Kaggle竞赛平台:只要你有才,只要你能解决问题,全球优秀高校offer和优秀互联网公司入职加薪均有可能。
Kaggle竞赛平台类似于一对多的项目众包平台,避免了传统入职测试中的以学历何工作经历做初步筛选的弊端。并且,个人的Kaggle Profile会显示所有参与过的项目、活跃度、实时排位、历史最 佳排位等,基本就等同于一张实力证书。如果你的未来是Data Science的方向,想要提升自己实力背景的话,以Kaggle在领域内的知名度,是你绝对不能错过机会。
Kaggle竞赛分类
乍看,Kaggle的平台门槛高,毕竟竞赛项目均以实际问题为基础,各公司的难题不在少数,但其实,Kaggle对初学者也极其友好,其项目难度从初学到高阶以及实际求职均有涉及,其中,最常见的竞赛筛选大致分成以下几个类别:
· Featured:Kaggle著名的比赛类型,适合数据科学高手参与。题目都是全面的机器学习问题,难度较高,通常是商业或科研难题,奖金池最大;
示例题目:
Allstate索赔预测挑战--使用客户的购物历史记录来预测他们购买的保险单
有害评论分类挑战--预测维基百科上有害评论的存在和类型
· Research:科研和学术性较强的比赛,同样适合数据科学高手参与,以实验研究为主要方向的竞赛,一般需要较强的领域和专业知识,奖金相比Featured较少;
示例题目:
谷歌地标检索挑战--如果有图像,您能在数据集中找到所有相同的地标吗?
右鲸识别--识别航空照片中濒临灭绝的露脊鲸
· Getting Started:适合基础入门选手,与Featured竞赛结构类似,但并没有奖金,以初学者项目学习积攒经验为主;
示例题目:
数字预测:从灾难中进行机器学习,预测泰坦尼克号的生存几率
房价预测:回归方法
· Recruitment:适合想要去发布公司求职的人,以各大公司需要招募相关职业为主,比赛的奖励为面试机会;
示例题目:
商店销售预测
新用户预定预测
· Playground:提供一些公开的数据集用于尝试模型和算法;
示例题目:
猫与狗:创建一种算法去区分猫与狗
纽约出租车行程持续时间:通过数据改善乘车时间预测
· Masters:大师级别的比赛,难度高,项目也最少。
· Annual:有两种类型的年度比赛:March Machine Learning Competition,自2014年以来,该比赛每年都在美国大学篮球锦标赛期间举行;Santa-themed Optimization Competition,每年在圣诞节前后举行一次。
Kaggle入门
虽然Kaggle平台从初学到大师级的竞赛都非常丰富,但也不是毫无门槛的。
1.编程语言:最基础的入门学者也得先学会初步使用一门编程语言。对于毫无基础的新手,推荐使用Python,因为Python作为一种强大的胶水语言,可以迅速入门。推荐下列课程:
2.探索数据:光有编程语言是不够的,还需要学习如何探索性分析你手上的数据,这是进入数据科学的第一步。因为通常到手的数据都多到不可思议,你要学会取舍和迅速获取最有用的信息。
3.模型训练:熟悉使用机器学习库,培养良好的习惯,为之后的工作做铺垫
4.实战:从初级可以逐渐增加难度
适合人群
对数据科学、数据挖掘、机器学习感兴趣的高中生
有一定计算机背景的大学生
竞赛时间
全年滚动发布,具体可参照官网信息,Active Competitions即为目前可参加的比赛。
竞赛流程
1. 注册账号(一人只能有一个账号)
2. 选择想要参赛的项目
3. 下载题目的数据(rain数据集,用来优化模型;test数据集,用来测试优化好的模)test的结果就是要提交的结果,提交之后就代表正式参赛,会在网上显示排名(每天可多次提交)。
4. 直到时间截止,评出最优者
5. 获奖的队伍必须提交源代码(队伍之间不能私自分享代码或者数据)。
注:可以以个人或组队的形式参加比赛,在参赛时可以相互分享经验。
竞赛价值
对于申请数据科学相关专业的同学来说,大数据的走红使得数据科学的申请竞争愈演愈烈,因此如何提升背景成为大家非常关心的问题。而Kaggle正好给大家提供了一个非常好的平台,在这里人人都有参与项目的机会,无论你的背景是什么,都可以通过选择合适的项目来找到属于自己的位置,利用自己的专业优势,为整个团队作出贡献,丰富简历的同时也能学习干货,为自己以后的学习打好基础。而其在领域内的知名度足以让你在众多申请者中脱颖而出,绝对是申请利器!是绝佳提升申请背景的赛事!
观点
Kaggle提供了一个非常好的学习&竞赛平台,在这里可以接触到真正的业界案例,收获实际的项目经验,在每一个项目中不断挑战自己,甚至在Kaggle榜上占据一席之位。对于初学者,初期的尝试可能会非常吃力,毕竟都是非常前沿的问题,但是如果能坚持完整的把一个项目做下来,编程能力和解决问题的能力都会得到极大的提升。只要参与过Kaggle竞赛的都会拥有自己的Kaggle Profile,里面包括你参与过的所有项目、活跃度、实时排位、历史最 佳排位,这相当于一张实力证书。值得一提的是,虽然是汇集精英的社区,Kaggle的论坛氛围很好,对新人非常友好,大家一定不要错过与业内最优秀的高手互动的机会哦。
在线咨询~
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。