2022AP统计北美卷FRQ真题分析及难度评估

各位AP小伙伴们好呀~2022年5月5日进行的AP统计考试已经结束，本场考试为线下纸笔考试，CB官网已更新了2022AP统计北美FRQ真题。

整体分析

今年这套北美卷的难度非常适中，和以往考题的相似度极高。

并且最难的FRQ6难度相较于以往难度也是偏低的，因此考生只要之前的复习充分，不难考出好成绩。下面我们来逐题分析每个题目的知识点以及对应做法。

逐题分析

第一题：

这道题的背景很有意思，生物学家调查了11只牛蛙的长度与重量，并给出scatterplot。四个小问分别考察到了：描述图表、度量值的描述、residual的定义。

(a)需要同学们描述重量与长度的关系。是非常常规的描述图表类问题。考生只需要从direction、form、strength和outlier四个点入手即可。从图像来看，重量与长度的关系是相对较强的positive linear relationship。

(b)考察关于slope of regressionline 的描述。这个部分有固定套路，即为当x increaseby one unit， then the predicted value of y increase by constant。

(c)考察关于coefficientof determinant 的描述。同b问有固定答题模板。即为 there are —— percent of variability in y canbe explained by regression line on x。前三小问都是需要in context，也就是将套话中的x与y带换成题目中的length与mass。

(d)考察关于residual的定义以及回归线的高估与低估。考生需要知道residual的定义为某点的实际值-预测值。从而在(i)小问中找到residual的绝对值最大的点。进而根据residual的正负回答下一问，即(ii)小问中regression line 高估还是低估实际值。这部分同学们要注意：residual大于0，代表回归线低估实际值；residual小于0，代表回归线高估实际值。

第二题：

这一题目说到了关于某一个新treatment与治疗痘痘之间的关系。考察到了unit 3当中实验部分的知识点，包括：实验术语、matched pair 的优点以及random assignment的过程。

(a)考察实验术语，这题难度不大。treatment为新药物和旧药物， experimental unit 是人，response variable为最终痘痘的评分。

(b)这一问问的是matched pair design相比于block design的优点。实际上matched pair是一种特殊的block，但每个blcok只有2个相似的人。所以paired design不仅可以使得实验数据的variability更加小，更加方便比较2个treatment的不同，还更能保证接受treatment1与treatment2的人们完全一致，更好的控制变量。

(c)考察关于random assignment people的过程。我们需要首先给人们进行编号(label)，接下来用random number generator找到一半的数字，这些数字的人们对应接受treatment1，其余接受treatment 2。(PS：其余随机分组方式譬如抽签也是正确的，这里只是提供一个模板)

第三题：

题目背景是罐装洗发水的机器，每次罐装的量会有波动。进而问道一些概率问题。考察到了 normal distribution、binomial distribution的概率计算。

(a)这道题目说某瓶洗发水净含量小于0.5为不合格，求不合格的概率。已知洗发水罐装的量X服从正态分布，求mean=0.6，standard derivation为0.04. 求X小于0.5的概率。同学们利用计算器里的normal CDF即可算出正确答案。

(b)这一问是说抽10瓶洗发水检查，如果2瓶以上洗发水为不合格，那么整个生产线都会被认为有问题。求生产线被认为有问题的概率。上一问已经计算出一瓶洗发水不合格的概率，假设为a。那么10瓶洗发水当中不合格的数量B服从binomial distribution， n=10，p=a。只需要利用计算器的binomial CDF计算B大于等于2的概率即可。

(c)这一问说若每瓶洗发水重量分布变成mean=0.56， standard derivation为0.03的正态分布，那么整条生产线会被拒绝的概率会变大还是变小？这道题目可以直接利用新分布算出每一瓶洗发水不合格的概率(可以看出应该是比A问算出的结果更大)，从而解释每一瓶洗发水不合格的概率都变大，整体生产线被拒绝的概率更大。

第四题：

这一题求all teenagers想要 video streaming service 的比例问题。考察关于区间构造以及区间含义。

(a)这一问考察构造区间的四步法(同学们可以参考TD原创的FRQ解题核心四步法这一份文件，里面有非常详细的解释和说明)。第一步根据问题选择合适的interval—oneproportion z interval；第二步验证 random、normal、independence三个条件；第三步利用计算器进行计算；最后一步描述刚刚算出的区间即可。

(b)这一问考察区间的含义：区间内的值都是可信的population parameter。通过分析题目中说的0.5是否在区间当中得到结论即可。

第五题：

这一题探究黑白巧克力对降血压的帮助。考察到了median的计算、test的作用以及 p value的定义。

(a)这一问让同学们分别计算出黑、白巧克力的median并进行比较，属于常规计算类问题。

(b)给出样本均值差为5.66mmHg，问同学们为何不能得出检验结论。这道题目看起来比较难写。实际上我们只要写出如下内容即可：抽样有波动性，不通过概率计算的方式来判断样本是否极端(即不计算p value)，是无法直接从样本数据中判断出检验结论的。

(c)这一题与2009 年北美FRQ真题Form B卷的第5题非常相似。即为给出sampling distribution of sample mean difference的simulation。让同学们计算出 pvalue，从而下检验结论。p value 是比我们抽样得到的样本还要极端的概率，我们通过simulation可以看出，比5.66还大的概率就是p value(约为3/120)。

第六题：

比较2个医院对于病患的治愈率。考察了基础概率计算、因果关系结论以及概率理解。

(a)这一问需要学生根据two way table算出conditional probability，并在第二问比较2个医院整体治愈率的大小。

(b)问我们通过上面的数据，能否得到不同医院导致不同治愈率的关系。考生需要注意：题目当中出现了cause这个词语，代表题目询问我们能否得到因果关系，而 cause and effect relationship是需要做实验才能得到的，因此同学们只需要分析题目中是否在做实验(或者是否进行了random assignment即可)，注意如果没有做实验，则不能得到因果关系。

(c和d)小问主要考察学生对于概率的理解。这问题将病患分成轻症与重症，并在c问要求我们分别计算2个医院对于轻重症病患的治愈率，发现不管对于轻症患者还是重症患者，B医院的治愈率都是更高的。

(d)这一问要求我们解释为什么分开来看，B医院的治愈率都更高，但将轻重证病人合起来计算之后，B医院的治愈率反而更低了？这个问题是统计学上很有意思的辛普森悖论，考纲中没有，感兴趣的同学可以仔细上网查找。解决这个问题的思路主要是：轻重症病人人数不同，但轻症的治愈率本身相对于重症更高。而对于b医院来说，重症病人人数太多，重症病人较低的治愈率稀释了整体治愈率。

【竞赛报名/项目咨询+微信：mollywei007】