用大模型做高考卷子和数学卷子怎么样？

一年一次的高考结束了，有机构用目前国内能够使用也比较流行的大模型测试了一下各科的高考卷子和数学卷子，结果如下。

向学渣学习考试心态！向大模型学习考场如何做题

大模型对于数学卷子的得分情况：

向学渣学习考试心态！向大模型学习考场如何做题

可以看到大模型对于绝大部分科目的表现已经达到了相当高的水平，这也符合大家使用大模型的实际感受，只要提示词比较到位，写个稿，做个PPT什么的还是没什么问题的。

但是大模型在解数学题时候的准确率就让人不敢恭维，例如下面这道题目：甲、乙两人各有四张卡片，每张卡片上标有一个数字，甲的卡片分别标有数字 1，3，5，7，乙的卡片上分别标有数字2，4，6，8，两人进行四轮比赛，在每轮比赛中，两个各自从自己持有的卡片中随机选一张，并比较所选卡片的数字的大小，数字大的人得1分，数字小的人得0分，然后各自弃置此轮所选的卡片(弃置的卡片在此后的轮次中不能使用).则四轮比赛比赛后，甲的总得分小于2的概率为多少？

这道题目答案是1/2，但是文心一言、阿里通义、腾讯元宝、字节豆包、360智脑、ChatGPT，百小应里面，只有Ghatgpt 做对了。

而大模型在大题方面也表现得比较一般，不过有趣的是，大模型很多时候的表现就像是数学没太学明白的学生，给人一种“学了，但没完全学”的感觉。大模型对于主观题的回答相对凌乱，而且过程具有迷惑性，甚至出现了过程错误但得到正确答案的情况，这像不像一些在考试中企图投机取巧迷惑阅卷人的考生？

另外大模型的公式记忆能力较强，但经常无法在解题过程中灵活引用，也很向平时学不明白，临阵抱佛脚背了几个公式就上了考场的考生。实际上从大模型可以解决各类问题开始，科学家们就发现在很多方面，例如翻译，作文等等方面很擅长的大模型非常不擅长解答数学题。

其实大模型做数学题目就和学生在考场上做题一样，都是在有限的数据库和时间中通过思考“预测”和“计算”出最正确的答案，然后将答案写出来或者输出在屏幕上。

针对大模型不擅长数学这一点, AI专家们想了很多办法尝试去提升AI 的能力，其中很多办法其实很适合同学们自己学习数学的时候使用。例如这里有一个方法，AI 人员把大模型解数学题的过程分为4步：（直接引用了大概的技术步骤）

1、生成代数模板：研究者首先生成其对应的代数表达式 Q_t，用变量替换数字项。

2、Math-prompt：然后，他们向大型语言模型提供多个 prompt P，这些 prompt 可以以不同的方式分析解决 Q_t。例如，P 可以是「推导出一个代数表达式」或「编写一个 Python 函数」等等。按照这个程序，我们最终会得到 P 的表达式，它根据 Q_t 的变量解析地求解 Q_t。

3、计算验证：通过给 Q_t 变量分配多个随机值来评估 P 的解析解。

4、统计学意义：如果 P 的解析函数的解在 N∼5 个不同的变量选择上处于「一致」状态，那么将 Q 中的原始值替换为最终解。如果不「一致」，重复步骤（II）、（III）和（IV）。

实际上，这就对应着学生解题的四个部分：

首先第一，你要能看懂题目。对于国际赛道的考生来说，数学的英语要求比其他学科要简单很多，在回答卷子的时候如果遇到叙述题目用常见的 because,so也能对付过去。但是依然还是有很多专业术语和平时生活中不太常见的词语，尤其是在力学和统计学等应用数学学科中。因此第一步就是要把题目变换成你能理解的符号，并且用数学进行建模。

第二，大模型会被不同的prompt 来解答题目，考生在考场上做题也一样，会尝试使用不同的解题方法。有的学生可能觉得，如果经过了长期的训练，人就会形成相应的“肌肉记忆”，因此看到题目之后会“秒懂”，立刻找到答题的方法。

其实优秀的考生在答题的时候速度较快不代表他没有考虑题目的多种情况和多种解法，恰恰相反，在阅读题目中就已经预判了题目可能的多种考法，例如看到一个坐标系上的圆的解法有多少种？可能考什么？圆心坐标？圆的方程？还是图中形成的某个角度？

学霸在看到题目的时候就已经考虑到这些了，而不是在读完题目之后还一头雾水，所以在旁观者的时间看才好像是他看完题马上就有思路，其实多种可能性已经在答题的过程中考虑过了。

第三，计算验证，就和计算机一样，人也会算错，所以需要反复验算。不过和计算机不同的是，人不需要被强迫“验算”，一般来说在考场上也没有人要求自己每个题目都算两边的，时间也不够用。但是考生需要掌握什么情况下我们可能需要验算，也就是说我们要能看出自己的答案可能“不对劲”，这个就需要长期的经验和判断了。

第四，反复对照思路，数学很好的人都知道，有时候你对于一个题很确定的时候你会知道自己算的答案就是对的，如果有其他的人的答案甚至标准答案和你的答案不一样，那一定是标准答案错了而不是你错了。

但是大部分时候我们做完题目是没有这样的自信的，因此就需要从多个角度多个思路来检查你的答案，比如有时候你可以把你的答案返回去代入道题目中，看看能不能求解出题目的某个条件，如果可以而且答案也和题目中的条件一样的话，那么你的答案大概率就是对的，否则的话要不就是你解题的时候，要不就是你验证的时候，肯定更有一个过程你搞错了。

因此，有时候做不出数学题，看看同样头疼的AI, 或许我们可以稍微放过一下我们自己，心态平和地再想想，毕竟，“聪明的”AI 对数学也感到很头疼~

【竞赛报名/项目咨询+微信：mollywei007】