首先AI 确实学习的很多的人类文字。
Google 当时预估人类目前出版的书籍差不多125 million册书,包括了 laws, poems, myths, essays, histories, treatises, and novels.
目前的AI 都还没学习social media 上的文字,所以AI 学习都还是高质量的文字,语言表达能力好于人类普通水准也是可以理解的。
但人类的高质量文字是有限的,据估计到2027年基本上能供AI 学习的人类文字就没了,所以AI 到底能走到多惊艳,还是得看人类有多努力了。
而类似ChatGPT 的输出方式,也很受限于人类的文字使用习惯。为了让自己的表达像人类,ChatGPT 的每一个字的输出都是一个概率:从学习的文字里里面去判断同语境下,人类会怎么说下一个字。
比如下面这个回答,ChatGPT 首先会去找到在学习的内容里关于LeBron James 的文字内容,然后发现在这些人类内容里LeBron James is an American 后面接着用professional 这个字的分数是50,basketball 的分数只有1,其他的连1 都不到, 那么输出的时候Chat GPT 就会选择professional
所以ChatGPT 当然不知道自己在输出什么,对于ta来说,要做的就是基于学习的人类文字,按照概率,去模仿人类输出。
机器可以依据人类常用的文字去设定一个表单
在遇到类似语境的时候去调用类似的表单。
所以ChatGPT 在使用文字的时候会有一些可捕捉的特点,这些特点是目前一些反作弊工具判断文字是不是AI 写的依据。
比如Princeton 学生利用冬假出的GPTZero
techcruch 给的结果是GPTZero 在7次里面有5次判断对了文字是不是AI 写的。
当然作弊工具的出现,自然会有反作弊的工具,然后就是反反作弊的工具...