今天的主题是AI如何帮助许多想申请美国本科的同学。
我将来简要介绍下AI的演进道路。大家可能听到过许多AI领域的词汇,例如鼎鼎大名的AI,以及最近非常火爆的生成式AI,无论是之前的机器学习还是神经网络,深度学习,都是耳熟能详。
早年间AI在计算机领域,大家都是用所谓的专家系统,我们给计算机提供一系列指令,计算机根据指令完成工作,并给到一个非常确定的输出。我让它做a时,它一定会给a的具体输出,直到2012年时可能有些变化。
以人脸识别为例,2012年有一帮科学家,主要来自加拿大滑铁卢的流派。他们可能原来会被认为是旁门左道,他们是用神经网络来做人工智能,做人脸识别。到2012年,这一派异军突起,识别率远超传统做法。从2023年到今年,Open AI又推出了很多包括Sora这样的文生图、文生视频这样的东西,大概是这样逻辑。
什么是人工智能(AI):
我们看到大的框架是我们叫artificial,下面的机器识别是AI的一个子集,然后深度学习又是机器识别的一个子集,深度学习用到了神经网络作为它的一个基础结构,然后再一个子集就是我们说的生成式的人工智能。
首先我们讨论人工智能,即AI可以执行,通常需要人类的智能才能完成的事情。人工智能是一个大的概念范畴。
接下来我们将讨论机器学习,前面提到机器学习是人工智能的一个子领域,具体指什么?指的是从数据中学习和改进,而不需要我们之前提到的明确编程指定它们完成任务,这与传统专家系统有所区别。前面提到了专家系统是我告诉它做这个事情,它就严格按照我告诉它的指令来执行,新一代的人工智能是说我从数据中去学习,然后自己自发的去做一些决策。
比如说ChatGPT,给它一个提示词,然后它就会产生一篇文章,很有趣的是这个提示词每次产生出来的文章是不一样的,如果按照以前的专家系统,你给它应该每次都一样。因此,你可以将其视为一个人工助手。这就是新一代人工智能每次都会给你不一样文章的原因。
深度学习又是机器学习的一个子集,关键是它用到了一个神经网络,神经网络就是模拟人的脑子,有好多层的结构,然后在不同层里面有不断来回参数的传递,然后做了大量参数传递以后,它就模拟人的头脑的思维方式来给出人的学习过程的一个模拟,大概是这个逻辑。
它其实基本上是靠计算机算法来完成中间很多的优化和参数传递。举个例子,比如它叫梯度下降,是作为一个算法,就是来达到一个局部区域的最优化,然后它不同层的参数传递,我们叫反向梯度或者反向传递和正向传递,当然这都是算法,这里面大量的用到数学里面的偏微分方程和矩阵运算,基本上就是一个数学下面大量的这种工作。所以它不是说真要怎么样去跟人的神经科学和医学的部分去结合,它还是在计算机跟数学这个层面上的这种工作。
一个神经网络,由很多个层次的神经元节点组成,它有很多的权重,有很多的算法,反向、正向的参数传递,包括一些梯度下降的很多的算法在里面。
大概前年到去年出来的生成式AI,举个例子,比如说有这样一个环境,我会说这样的话,我说今天外面下雨了,我出门要戴一戴,然后后面一个空格内填什么词,然后比如说大语言模型就会填,带雨伞的概率,它会填85%,然后雨衣可能填10%,然后带上车钥匙5%,所以其实是它学习了大量的人类语言的案例后,它根据上下文会自动往里面填句子填段落,这大概就是生成式AI的基本逻辑。
你就记住一点,就是说今天外面下雨了,我要带什么东西,大语言模型会往里面填,按照概率来填这个东西,这个概率怎么得来,就是根据它学习了大量的人类文献以后得出的结论,这个逻辑就是你喂的东西越多越靠谱,它学习出来的质量就越高,其实和我们人类的学习一样。
总结人工智能是一个大的概念,机器学习是人工智能一个子集,是通过数据学习和改进,深度学习就是机器学习的一个子集,它是用神经网络来做的,然后神经网络的话,前面讲的是一系列算法和神经元的层次结构搭起来,然后生成式AI是基于深度学习到一定时间段的一个产物,它是能够通过学习大量的历史数据来产生新的内容,大概是这个逻辑。
简要介绍目前人工智能中有哪些优秀应用:
Text to Text: ChatGPT
Text to Image: Midjourney, Dall-E, Stable Diffusion
Text to Music: Suno
Text to Video: Sora
在教育行业上的运用。前一阵,有一个视频是可汗学院的创始人,他用GPT教他的自己的小孩三角函数,大概是GPT4o,就已经展现出能够教小朋友三角函数,乃至将来可能更复杂的一些教学的任务,它体现出来不光是会教,还会跟你做一些交流。一步一步的来教你,这就真的很厉害。
第二个就是现在可能因为大家升学压力都很大,会找很多的老师来做培训,如果有一个AI的老师来教学生,第一个它会很耐心,第二个它可能费用更低,第三个它对小朋友掌握的程度了解更深,它如果从5岁教到小朋友20岁,一路以来会对小朋友非常熟悉。它知道小朋友的缺点,它有耐心,它随时可以触达,小朋友有空的时候它就有空,这个可能会带来很大的颠覆。
比如,Hume.ai教英语口语,它里面有几个模拟的人物,比如说一个教英文口语的老师,它就跟你聊聊英文,它有很多的提示词,对教小朋友英语口语非常好,因为它跟以前有了质的变化,它是有感情的,它有语气,你可以随时打断他。
关于美国大学怎么看待人工智能(AI):
第一个,美国的大学目前非常重视人工智能,有一些顶尖大学已经开设了人工智能专业,比如说卡内基梅隆CMU,它的计算机学院是新成立、单独成立的一个学院,它在计算机学院里面成立了AI专门的专业。
AI这个领域发展非常快,所以大学在努力的跟。很有趣,实际上这波是业界在推动,业界顶在最前面,然后学术界也在跟,而且AI很大程度上影响到了学术界。所以像斯坦福也好,MIT也好,都肯定在计算机科学上面开了相关的人工智能的课程和一些细分方向,或者开了很多的Lab,比如说MIT开了AI相关的Lab,就鼓励学生在技术和人文、商科、生命科学领域的一些交叉。
QA时间
Q:AI在未来可能会有什么样的进化趋势?我们如何能够跟上AI新的变革?
A:跟得紧一点,有很多的论坛文章,很多的网站都可以去跟的,去关注最新的科普,最新的专业发展。其实国内已经跟得很紧,目前国内的很多自媒体,一个sora出来的话,第二天都是sora的信息了。
AI在未来的发展,就像前面讲的有两次很大的意外,第一个是加拿大派冲出来说可以叠神经网络,原来硅谷一派的是没想到,等于是加拿大派占领了这个领域,然后整个硅谷再去学的。第二个变化,比如说Google的话一开始沿着自己思路搞AI,根本没想到Open AI会大力出奇迹,行业有很多有趣的异军突起的现象,也正是因为这样,才让这个领域充满了意思,你也有弯道超车的机会。
Q:学习AI需要多久?对于小朋友来说,以这种课程的维度上来讲,大概要花多长时间是能够有基本的了解。
A:取决于你想学多深。如果你想从事计算机领域,你想做AI研究的话,可能要研究深一点,如果是其他的领域,你想和AI做一个cross的话,可能就不用那么深,但是你学好了AI,你可以比在那个领域的很多没有学过的人拥有很大的优势。
小学生们玩一玩就好了,可以从初中开始学。一般AI的课程就可以,基本的一些python编程可能需要学一学,也不用很长时间,比较复杂的点是在于怎么把你的兴趣和AI结合起来,因为这里面要找一个结合点,是需要动点脑筋的,就不是说每一个都一样,比如说心理学和AI结合,可能是大量的细分领域的数据采集收集,然后喂给AI,做这个方案,让AI变成一个心理学方面的专家,再帮助那些有这方面心理问题的小朋友解决他们的问题,整个流程是需要动脑子的。
Q:如果对AI编程感兴趣,会有什么样的课程可以推荐?
A:几块。基本的Python可以学,学一些基本的, 对于AI一些概念的了解,然后一些基础原理不用学太深,你不需要学到矩阵运算、偏微分方程、梯度下降法,这个不需要,但是你需要大概了解这些是怎么弄的。比如神经网络之间的话为什么要传参数?这个来回传参数的逻辑是什么?
最后它输出是一个概率值,然后有哪些情况下它会有一些over fit?或者是过拟合。你需要知道一些基本的逻辑,还有最新的那些逻辑,你需要去学习如何写好一些提示词,因为如果你想用好ChatGPT,要用好文生图,提示词写的质量越高,AI就能够帮助你产生更高质量的文章和图像。
Q:最新的AI一定程度上能模拟人类的情感,这个和人类的情感会存在什么样的差别呢?
A:模拟人类情感,它实际上是一种概率输出,就在这种语境情况下,85%的人类会表示愤怒,10%的人类表示沮丧,5%的人类表示绝望,那它就会产生这样的输出。
Q:如果小孩大学还是想学计算机,想学CS,需要做一些什么有深度的项目会比较有帮助?
A:我们有个小朋友,他要申请CS以及Double E,他CS和Double E都拿到了,最后他去了Double E,因为最近芯片行业是最牛逼的。有一种说法,可能将来基础的编程人员会受到AI很大冲击,但是Double E的话跟芯片相关,他最后去了一个美国很好的学校的顶尖学校的Double E,他做什么事情呢?他装了个摄像头,然后特斯拉跑的时候他收集很多数据,这个摄像头也收集很多数据,两个做一个交叉验证,他就希望去模拟特斯拉的一些数据,这是他做的一个项目,这个项目是半成品。
因为特斯拉的人工驾驶它是一个纯基于摄像头的,国内很多自动驾驶,两套系统摄像头也有,激光雷达也有,毫米波雷达也有,这些都有,特斯拉是纯基于摄像头的,所以他想做的是部分特斯拉的自动驾驶的一个视觉识别的功能。
苹果手机有三个摄像头,有三个洞,最新的iPhone15,如果大家打开它的录制视频,它有个功能,点一下,它就生成一个有景深的视频,人的眼睛是两个眼睛,其实两个眼睛长得越分开越好,它越分开,它就越能去识别物体的立体性,两边可以照到物体的立体性,即景深。它越分开,拍摄出来景深的信息就会更多。
有个小朋友在做这样一个项目,他做一个两个摄像头分得很开的这样一个东西,然后做成很多景深的东西。这样有景深的视频有什么用?目前的话应用程度有限,因为可呈现的方式不是很多,将来比如说你戴一个眼镜,你之前用这个宽的摄像头拍,它能够更加的有景深和立体化。
这样讲类似你可以拍摄3D电影。所以小朋友在做这样的一个项目,可以有一定跟CS,Double E的深度结合,因为会用到一些计算机视觉里面的东西了,大概是这样。当然这个Approach不一定成立,但是小朋友有欲望去想往这边探索,这本身证明了小朋友的探索价值。这个方向有可能是完全是错误的,但是没有关系