Kaggle是什么?
Kaggle大数据竞赛
@简介:
Kaggle是一个全球知名的数据科学竞赛在线平台,由Anthony Goldbloom和Ben Hamner于2010年在墨尔本创立,后由google收购;
Kaggle一开始以数据挖掘Data Mining起家,为的是可以快速高效的解决最棘手的问题。对参与者来说,不仅是考验自己能力,更是一场实战经验;
Kaggle的多数竞赛由企业或者研究机构发布,以竞赛奖励的方式向全球征集解决方案,通过众包的方式解决建模问题,诸如Google、Facebook、Microsoft等知名科技公司均在Kaggle上举办过数据挖掘比赛;
Kaggle竞赛平台:只要你有才,只要你能解决问题,全球优秀高校offer和优秀互联网公司入职加薪均有可能;
@亮点:
Kaggle竞赛由于题目有趣,不限年龄、背景和国籍,入门快且含金量高等优势,倍受留学生们的热捧,不止中学生可以参加,所有计算机爱好者,甚至计算机领域的从业人员都可以报名;
Kaggle竞赛平台类似于一对多的项目众包平台,避免了传统入职测试中的以学历何工作经历做初步筛选的弊端;
Kaggle一直致力于解决业界难题,不以学历和工作经验作为唯一的人才评判标准,而是着
眼于个人技能,为优秀人才和公司之间搭建了一座桥梁;
对参赛者来说,他们不仅有机会接触丰富的真实数据,解决实际问题,角逐名次,赢取奖金。每年,Kaggle官方还会举办一次大规模的竞赛,奖金高达一百万;
个人的Kaggle Profile会显示所有参与过的项目、活跃度、实时排位、历史最佳排位等,基本就等同于一张实力证书;
如果你的未来是Data Science的方向,想要提升自己实力背景的话,以Kaggle在领域内的知名度,是你绝对不能错过机会。
Kaggle入门
@参赛须知
1.适合人群:
- 对数据科学、数据挖掘、机器学习感兴趣的高中生
- 有一定计算机背景的大学生
2.竞赛时间:
- 全年滚动发布
- 具体可参照官网信息
@竞赛流程:
- 注册账号(一人只能有一个账号)
- 选择一个比赛项目
- 加入竞赛,理解项目需求
- 下载数据,训练模型,得出结果
- 提交结果(一般只需提交预测结果,每天可多次提交)
- 一直到时间截至,评出最优者
- 获奖的队伍必须提交源代码
@竞赛分类
▌面向初学者
- Getting Started:,适合基础入门选手,与Featured竞赛结构类似,但并没有奖金,让初学者体会机器学习、、积攒经验为主;
- Playground:有趣的比赛,主要看创意,而非解决具体的研究问题
▌面向竞赛者
- Recruitment:赞助商为招聘数据科学家而设立的比赛,适合想要去发布公司求职的人,以各大公司需要招募相关职业为主;
- Featured:为解决商业问题,适合数据科学高手参与,通常是由公司,组织或政府等赞助的,奖金池最大;
- Research:解决学界前沿问题,同样适合数据科学高手参与,以研究为主要方向的竞赛,奖金相比Featured较少;
- Masters:大师级别比赛的,难度最高,项目也最少
@比赛技能要求
- 编程语言:
最基础的入门学者也得先学会初步使用一门编程语言。对于毫无基础的新手,推荐使用Python,因为Python作为一种强大的胶水语言,可以迅速入门;
- 探索数据:
光有编程语言是不够的,还需要学习如何探索性分析你手上的数据,这是进入数据科学的第一步,因为通常到手的数据都多到不可思议,你要学会取舍和迅速获取最有用的信息;
- 模型训练:
熟悉使用机器学习库,培养良好的习惯,为之后的工作做铺垫;
- 实战:
从初级可以逐渐增加难度。
Kaggle常见问题
问:哪类学生适合参加Kaggle?
答:
- Kaggle欢迎任何数据科学的爱好者,不限经验和背景;
- 刚入门的小白也可以利用小数据进行实践和练习,所以零基础、甚至文科生也能去尝试;
- 不过参加Kaggle还是需要有一定编程基础,同时对现实问题有浓厚兴趣,并擅长运用所学知识去解决这些问题的学生。
问:想要在Kaggle竞赛中取得名次,难吗?
答:
- 想在Kaggle竞赛中名列前茅的难度非常大;
- 因为一个竞赛项目往往参与人数可以达到数千人,但只有Top 1可以得到奖金;
- 根据以往经验来看,就算是有一定知识储备的业内选手组队,也很难在初次比赛中取得好名次;
- 由于Kaggle的获奖难度比较大,针对性的密集备赛还是很有必要的。
问:参加Kaggle对大学申请有什么作用?
答:
- 备赛过程中学习的编程语言等基础技能,可以为未来参加其他CS相关科研和独立项目做准备;
- 在Kaggle中解决问题的相关产出,无论最终结果如何,都可以当作品用来展示,也可以当作素材写进文书;
- Kaggle能够综合体现参赛人的能力,把作品主页发给学校看,会成为申请时的超级加分项!