手机电脑屏幕前的你是否遇到过这样的情况:
前脚刚在谈论或者搜索的内容,下一秒就会出现在你的电脑网页广告或手机APP相关产品推荐中,仿佛被视监了一般;
又或者你在某宝上点进了某件商品的详情页,隔天你的推荐列表就变成了相关产品的专场。
若经历过以上场景,那你一定对“大数据”这个词不会感到陌生。
事实上,数据无处不在,人类社会的数据量一直处于快速增长中,尤其在互联网高度发达的今天。
于是,有越来越多的人开始投身于研究、分析数据,并把数据作为重要的行事参考依据。Data Science 就在这样的时代背景下逐步成为火热的专业。
什么是 Data Science?
从广义上来说,和数据相关的科学研究都是数据科学(Data Science,简称DS);具体点来说的话,Data Science 是指通过挖掘数据、处理数据、分析数据,从而得到有用信息的技术和研究,再将这些信息应用到不同领域的各个方面。
该学科结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算等,通过运用各种相关的数据来帮助非专业人士理解问题。
Data Science 都学些什么?
总的来说,Data Science 的学习主要分为以下三个模块:
-
数据模型
-
数据处理
-
数据可视化
显而易见的是,这些相关的知识都和计算机、统计及数学有着密切的联系。下面给大家一张图,或许可以更直观地感受到 Data Science 和其他学科之间的关系:
美国著名数据科学家 Drew Conway 的维恩图
作为一门跨领域学科,Data Science 专业的学生一般会学习包括数据分析、计算机编程、预测建模、统计学、概率论、微积分等课程。
那么学习这个专业,能从事哪方面的工作?就业前景又如何?去哪个国家学习比较好?申请难不难?
Data Science 毕业后做什么?
01就业市场现状
在以前,可能数据科学的工作主要集中在科技和金融领域,但随着互联网的快速发展,几乎每个行业都需要懂得处理数据的专业人士,这也导致就业市场对于数据科学这个职位的需求激增,并成为了目前最具价值的职业领域之一。
根据 Glassdoor 《 2022 美国 Top 50 最佳工种》排名显示,数据科学家以年薪中位数 $120,000(约76万人民币)位列美国最佳职业榜单的第三位,是美国最受欢迎的工作之一。
(图片来源:glassdoor)
根据 Glassdoor 和美国劳工统计局给出的数据,美国将为数据科学家和类似的高级分析职位创造超过 61,799 个新工作岗位;到 2026 年,数据科学家的就业人数预计将增加 20%。
02数据科学的工作内容
数据科学的主要工作可以归纳分为四个部分:
-
归纳问题
-
准备探索数据
-
模型训练检验调整
-
报告和产品
1)归纳问题
客户给公司的任务,或者上级给分析师的任务,不是一个具体的任务(用xx模型来做xx数据) ,而是一个具体的商业问题。比如,上个季度为什么盈利下降了?这就是一个归纳问题的环节,需要有专业知识帮助我们找到方向。
2)准备探索数据
归纳问题结束之后,会产生很多假设,这就需要寻找数据验证假设。
寻找数据一般是竭尽所能,比如收入不好与市场推广有关,就会去寻找广告商的数据;寻找数据以后,要检查数据质量是否有异动、缺失等等。通常,数据质量能够决定模型的准确率,所以花在“清洗整理”数据上的时间要占到总时间的60%甚至更多,有时候也需要跟客户进行交流。检查完质量以后,再做一些探索性分析。
3)模型训练检验调整
先确定模型基本类型(回归、聚类等),选取比较合适的模型进行搭建,用test对模型进行检验。检验的同时,再去寻找模型最优的参数配置对模型进行预测。如果预测结果很好的话,建模过程就结束了。
4)报告和产品
如果你在咨询公司工作,模型做完以后都会和客户进行交流,看是否符合实际情况;在科技公司中,模型往往会发展成一个产品,放在公司平台上进行测试使用,最后进行正式发布。
总的来说,Data Science是多领域的结合,尤其是跟具体各行各业相结合的时候,除了具备专业知识和技能,以及实际运用知识的能力外,还需要对特定甚至多个相关行业领域有深入的了解。
(图源:oralytics.com)
03有哪些职位与Data Science相匹配?
互联网时代,各行各业都在利用大数据来解决问题,所以各企业都有与数据科学相关的职位设置。与 Data Science 相关的职位可能有很多种叫法,不同公司根据不同的背景,主要有以下一些常见的职位头衔(title):
1)数据科学家 Data Scientist
数据科学家应具有商业头脑和分析技能,以及挖掘、清理和呈现数据的能力。该职位主要职责为获取、管理和分析大量非结构化数据,并提出相关设计解决方案。然后将结果综合并传达给关键利益相关者,以推动企业的战略决策。
2)数据分析师 Data Analyst
数据分析师是数据科学家和商业分析师之间的桥梁。该职位主要从事数据处理工作,运用算法来解决和分析问题,推动数据解决方案的不断更新,估计投资回报比,为产品方向提建议。
3)数据工程师 Data Engineer
数据工程师管理大量快速变化的数据。他们专注于数据管道和基础设施的开发、部署、管理和优化,以便将数据转换传输给数据科学家进行查询。
4)数据挖掘工程师 Data Mining Engineer
数据挖掘工程师不仅会检查他们自己的业务数据,还会检查从第三方收集的信息,数据挖掘工程师将创建复杂的算法来进一步分析数据。
5)数据架构师 Data Architect
数据架构师与用户、系统设计人员、以及开发人员密切合作,创建用于集中、集成、维护和保护数据源的数据管理系统。
6)风控师 Risk Manager
风控师是提前识别风险并采取预防措施降低或减轻风险的职位,较多出现在金融相关行业。该职位与数据科学紧密相连,风控师需使用数据处理工具/知识,有效地提供风险分析报告,帮助企业摆脱损失。
去哪个国家留学比较好?
在回答这个问题前,我们先来看一下 EduRank 对各国各大学 Data Science 专业的排名。
1.University of Oxford
2. Stanford University
3. Harvard University
4. University College London
5. University of Washington - Seattle
6. Carnegie Mellon University
7. Massachusetts Institute of Technology
8. University of Michigan - Ann Arbor
9. University of California - Berkeley
10. University of Toronto
11. University of Wisconsin - Madison
12. University of California-San Diego
13. University of Manchester
14. McMaster University
15. Imperial College London
16. University of Illinois at Urbana - Champaign
17. Cornell University
18. University of Cambridge
19. Pennsylvania State University
20. University of Bristol“
完整排名可以在以下链接查看:https://edurank.org/cs/data-science/
从以上榜单中我们可以看到,美国院校几乎包揽了前十。
并且在 Top20 的名单中,绝大部分院校均为美国大学,其次是英国,但在学校数量上还是和美国相差甚远。
不止该榜单如此,美国数据科学人才测评专业机构 Correlation One 发布的白皮书中,就有全球院校 Data Science 的专业排名,其中美国院校表现依然出挑。
(图源:Correlation One-Future of Data Talent Report )
下面我们主要来了解一下美国的 Data Science 专业。
01美国大学DS专业有哪些课程项目?
不管是教育质量,还是就业发展,美国都是学习 Data Science 专业的首选。近年来,美国开设数据科学专业的学校数量快速增加,不少院校都把它列入为STEM专业,可见美国对于数据科学专业的重视程度。
以下是各大院校该专业普遍会涉及的一些具体课程,主要包括:
-
大数据 Big Data
-
机器学习 Machine Learning
-
数据可视化 Data Visualization
-
数据探索与分析 Data Exploration & Analysis
-
概率与统计 Probability & Statistics
-
数据库系统 Database Systems
-
数据结构和算法 Data Structures & Algorithms
-
数据挖掘 Data Mining
每个学校具体涉及的课程会有所不同,但是主要都围绕数据科学的五个不同阶段:
-
捕获(数据采集、数据输入、信号接收、数据提取);
-
维护 (数据仓库、数据清洗、数据分期、数据处理、数据架构);
-
过程 (数据挖掘、聚类/分类、数据建模、数据汇总);
-
分析 (探索性/确认性、预测性分析、回归、文本挖掘、定性分析);
-
沟通 (数据报告、数据可视化、商业智能、决策制定)。
(截图来源:UCberkeley)
在美国,大部分 Data Science 的相关项目一般都开设在计算机学院、文理学院、工程学院下,也有少数设置于商学院。
下面为大家推荐美国几所排名相对不错的院校以及硕士项目吧~
02推荐院校及项目
1)斯坦福大学 Stanford University
项目名称:Master of Science in Statistics - Data Science track
所属学院:School of Humanities and Sciences - The Department of Statistics
项目长度:1-2年
项目链接:https://statistics.stanford.edu/graduate-programs/statistics-ms/statistics-data-science-curriculum
2)哈佛大学 Harvard University
项目名称:Master of Science inData Science
所属学院:Harvard John A. Paulson School of Engineering and Applied Sciences
项目长度:1-2年
项目链接:https://www.seas.harvard.edu/applied-computation/graduate-programs/masters-data-science
3)华盛顿大学 University of Washington
项目名称:Master of Science in Data Science
所属学院:College of Arts & Sciences,Natural Sciences Division - Department of Statistics
项目长度:1.5年
项目链接:https://www.washington.edu/datasciencemasters/
4)密歇根大学安娜堡分校 University of Michigan,Ann Arbor
项目名称:Master of Science in Data Science
所属学院:College of Literature,Science,and the Arts
项目长度:1年
项目链接:https://lsa.umich.edu/stats/masters_students/mastersprograms/data-science-masters-program.html
5)卡内基梅隆大学 Carnegie Mellon University
项目名称:Master of Computational Data Science
所属学院:School of Computer Science
项目长度:16个月
项目链接:https://mcds.cs.cmu.edu/
6)加州大学伯克利分校 University of California,Berkeley
项目名称:Master of Engineering - Data Science and Systems
所属学院: College of Engineering - Department of Electrical Engineering And Computer Science
项目长度:1年
项目链接:https://eecs.berkeley.edu/academics/graduate/industry-programs/meng
7)康奈尔大学 Cornell University
项目名称:Master of Professional Studies in Applied Statistics
所属学院:College of Computing and Information Science
项目长度:1年
项目链接:https://stat.cornell.edu/academics/mps
8)南加州大学 University of South California
项目名称:Master of Science in Computer Science (Data Science)
所属学院:USC Viterbi School of Engineering
项目长度:1-2年
项目链接:https://catalogue.usc.edu/content.php?catoid=14&navoid=5199
9)宾夕法尼亚大学 University of Pennsylvania
项目名称:Master of Science in Engineering in Data Science
所属学院:School of Engineering and Applied Science
项目长度:1.5-2年
项目链接:https://www.cis.upenn.edu/graduate/program-offerings/mse-in-data-science/
10)哥伦比亚大学 Columbia University
项目名称:Master of Science in Data Science
所属学院:Data Science Institute
项目长度:1.5年
项目链接:https://datascience.columbia.edu/education/programs/m-s-in-data-science/
当然,选择哪个国家就读要考虑的因素有很多,比如学校排名及认可度、专业排名、个人竞争力、就业发展、文化氛围等等。总的来说,美国数据科学专业院校更多,且专业排名会相对更高,国内认可度也高、就业市场也会更广。
申请一般要求
01需要什么样的学术背景?
不论是国内还是美国本土,本科就开设Data Science这个专业的学校并不是特别多,所以大家不要一看自己专业名字和数据科学不搭边就觉得是转专业申请。
首先,学CS的同学显然是可以申请的,因为大多数数据工作都是通过编程和数据库的相关手段进行的;
学统计或者应用数学,且有一定编程基础的同学也可以申请;
商科出身,尤其是量化背景较强的商科专业,比如金融工程,但又希望能选择一个STEM专业的小伙伴,那DS显然也是个非常好的选择。
所以说,如果你有比较强的编程背景,又有比较好的数理基础那你就很有竞争力;而纯商科背景的小伙伴则可以选择Data Science(DS)和 Business Analytics(BA)混申吧,后者更偏商科更加Match一些。
02GPA
美国大部分排名较好的院校,GPA的最低要求都在3.0以上。所以,如果你要申请好的院校需要早点准备提高自己的GPA。
03语言成绩
在美国,Data Science 专业排名稍好的学校语言成绩一般为:雅思6.5-7.5;托福88-100。排名前十的院校一般要求雅思7.5,托福100。
04GRE/GMAT
美国大部分院校会要求学生提供GRE/GMAT成绩,不过因为疫情原因,很多学校取消了GRE/GMAT的强制提交要求。