AP统计学5分知识点分享

作为AP为数不多的数学科目之一，AP统计逐渐成为理科生们的必争之地。

据统计，在2020年网考的情况下，AP统计考生人数有十八万之多，在AP理科中的占比仅次于微积分AB与生物。

但当我们谈论起AP统计的时候，说法却各种各样。有人说统计难于微积分，学了半天都没找着门道；还有考生说这简直是AP中最简单的一科了，学了就能拿4分，稍微努力一下能得5分。

实际上，这是源于AP统计的特殊性。在统计里几乎没什么复杂的计算，计算器代劳了一切的公式与算式。但是里面的概念却是绕着弯的，一环扣一环。拿高分的重点并不在于数学解题的逻辑思维，而是如何把一个个概念放到各个实验的具体场景中。

抽样 Sampling

我们常说的抽样检测就是AP统计的范围，一个抽样（Sampling），一个实验（Experiment），最后进行假设检验（Hypothesis test），这就成功完成了一个研究。这类的基础知识，是无论进行哪一个理科科目地学习都必须要具备的。

所以超级重要，好好学！

简单来说，抽样（Sampling）就是从总体（population）中提出样本（sample）的过程。目的就是为了省事，不用对（量大的）总体进行一个个检测，而是通过测其中一些有代表性的样本数据再反推总体的数据。

而最简单的也是我们常说的抽样方式，就是简单随机抽样（Simple Random Sampling），从总体中随机抽取样本。那么如何做到随机，这时统计就派上用场了。

1. 把总体中每个个体的数字作为标签

2. 通过计算器，随机产生几个数字

3. 这些选出的数字所对应的个体，就组成了我们所需要的样本

其实，就是以数字的方式代替所有的人或物，再通过数学的方法进行随机抽取。

超实用AP统计学，你学“废”了吗？

除了最直接的简单随机抽样，还有几种适合不同场景的抽样调查方法。比如考试经常出现的分层随机抽样（Stratifiedrandom sampling）和整群随机抽样（Cluster random sampling）。

分层随机抽样（Stratifiedrandom sampling）是先将总体按照一个标准分层，每层中抽取固定个数的个体，组成样本。

这种方式的适用场景是在总体分层后，每层的差距比较大，不过层内部的个体差异不大。

超实用AP统计学，你学“废”了吗？

比如：当校长想要知道这个高中里学生对学校的满意度，可以根据年级把所有学生分三层，每个年级是一层。再从每个年级的学生中都挑20个，最后一共有60人被抽出，也就是样本。这种时候同一年级，也就是同一层的学生差距并不大，学的知识都差不多。但是高一和高三的学生比，就相差比较多。

↑这是我们所说的适用于分层随机抽样的情况。

整群随机抽样（clusterrandom sampling）则是和分层随机抽样完全相反的另一种方法。是在总体分组后，随机抽取其中一或多个组的所有个体成为样本。

这种方式适用于组和组之间差距不大，但是组内多样性高的情况。

超实用AP统计学，你学“废”了吗？

比如：想要知道高三年级的同学在数学课堂上的表现，可以先根据班，把所有学生分成不同组，一个班为一组。直接抽取其中两个班，各做一次公开课就能得到结果。这时班和班的差距其实并不大（没有实验班），但是班级内部有很喜欢听课的同学，也有很不喜欢上课的同学，这会导致差异性比较大。

和分层随机抽样相比，整群随机抽样的操作难度一下子降低了，不用到处跑来跑去拜访所有层，但是大多时候很难像分层随机抽样，保证样本足够多样性。

选择合适的抽样方式，并且能通顺不出错地写出来可是超级超级超级重要的！

比如，某年真题考到量森林中树的维度：一共上百亩的森林，可以选择整群抽样，只随机测几亩森林里所有树的维度，这样肯定方便。但更好的方式则是在每一亩都挑几棵树来测维度，虽然麻烦，但是因为每一亩地的阳光，土壤资源都不一样，这样的方式保证了样本和总体更加匹配。

最后还有一种随机抽样的方法，叫做等距抽样（Systematic random sampling）。第一步不再是分组，而是要把总体中的所有个体按某种顺序排列，抽取每次的第k个作为样本。

这种与众不同的方法在考试中并没有前面三种考的频繁，但也是重点之一。

超实用AP统计学，你学“废”了吗？

举个例子：篮球队选参赛人，先按照高矮个把所有人排好顺序，从中抽取第三个，第六个，第九个，第十二个......作为样本（其实就是每次的第三个）。这种方法固然可以保证样本与总体的相似性，但也要注意避免让排列好的总体有任何的重复。如果篮球队员的排列方式是170，180，185，170，180，185... 有可能每次挑出来的篮球队员都是身高180哦。

抽样偏差 Sampling Bias

有好的抽样方法，就肯定存在有问题的方法，也就是抽样调查中出现的各种Bias。比如从一开始就出现覆盖不全的偏差（undercoverage bias）。顾名思义，undercoverage指的是抽取样本时，并没有在应该的总体中抽取，而是漏掉了从一部分中的一个更小的总体中抽取。

超实用AP统计学，你学“废”了吗？

比如电话抽样问题：当政府领导想要调查市民对于新政策的意向时，从电话本上随机抽取一些人的电话询问他们的意见。这看起来流程没什么问题，实际上从最开始的电话本就错了。

电话本很难保证覆盖所有市民的电话，那电话没登记在电话本上该怎么办呢？这些人的意见就直接被放弃了吗？因此除非题目表示电话本上有所有人的电话，否则只要一提电话抽样，那肯定出现了undercoverage bias。

电话调查不仅有覆盖不全的偏差，同时也很容易出现其它两种偏差：不回答偏差（Nonresponsebias）和回答偏差（Response bias）。 不回答偏差（Nonresponse bias）是打了电话但对方没接，或者打通了可对方拒绝回答。

只要没得到想要的答案，都算是nonresponse bias。与之相反的回答偏差（Response bias）指的是得到了关于问题的回答，可是对方回答的并不是心里想的，或者并不是真实情况。比如打电话问道“你是否偷过东西”，一些真正偷过东西的人可能就会因为面子说没有。

这两个问题并不只会在打电话时存在，如果面对面问一些敏感问题，可能更容易出现。不过好在两个都有相应的解决办法。

比如通过随机抽取更多的人，弥补上不接电话或者不回答人数的缺口，又比如通过匿名等保护信息的方式，让实验对象不受面子的影响，从而愿意说真话。

实验 vs 观察研究

Experiment vs. Observational study

当抽样完成之后，被实验的对象也就都足够了。那如何通过一系列的操作，从实验对象中得到需要的数据，则是我们后面研究的部分。在日常生活中简单又常见的方式，问卷调查（Survey），它其实并不能被称为一个实验，因为它只能被叫做一种观察研究（Observational study）。这类观察研究的特点，就是不对实验对象做出任何的改变。

比如：想要研究文化水平与收入之间的关系，通过问卷调查100人的文化水平与收入，得出结论。此时研究对象并没有被动的文化水平低或者高，也没有被动地挣得更多或者更少。

研究人员发了问卷，只起到了观察的作用，并没有进行实质性的改变，这种就是观察研究。

那什么才是一个真正的实验（Experiment）呢？答案有改变的实验叫做真正的实验。

举个例子：想要研究司机听不同音量的音乐和反应速度的关系，可以通过让同一个司机听两次不同大小音量的音乐，再测试反应速度进行对比。这时让司机听音乐的操作就是对他们进行的改变，也就是treatment。

是否有改变，直接影响了研究的类型，更重要的是影响了结果。观察研究因为无法确认谁导致谁，因此只能得出正相关与负相关。

如果研究结果是文化水平和收入呈正相关，也无法判定是因为文化水平高导致收入高，还是收入高所以有更好的教育资源，所以文化水平高。但是因为实验是进行了改变的，所以可以得到我们更希望的因果关系结论。

超实用AP统计学，你学“废”了吗？

实验 Experiment

在AP统计考试中，研究比较多的是实验，因此就涉及到了实验的方法。我们最简单常见的方法就是完全随机设计（Completely randomized design），将每一个实验对象都随机分配至实验组或对照组，最后把两组的数据进行对比。

通常实验组是对实验对象进行改变，而对照组则是不进行改变。但有时因为实验比较复杂，实验组会有好几个，那么就要把实验对象随机分配到几个组中的一个，再进行对比。

超实用AP统计学，你学“废”了吗？

稍微复杂一点的实验方法叫做随机区组设计（Randomized block design）。先根据某个标准把样本分为两组，再把每组的人分别随机分到实验组和对照组。

比如：研究人在不同商场中的消费金额，可以先把整体样本分为男女两组，再把每个男的随机分到两个不同的商场，女的也随机分到两个不同商场。这样不仅得到了两个商场的不同消费数据，还能将男女数据进行对比。

最后一个，也是最复杂的——配对实验（Matched-pairs design）。最简单的解释是，实验组与对照组的数据可以因为实验对象的原因一一对应起来。 其中一种情况，是让实验对象每个人做两件事。

就比如之前讲到的让司机听两个不同音量的音乐，测反应速度。或者测学生入学前成绩和入学后成绩，得出上课有没有用的结论。

这种一人做两件事的实验，是因一个人给出的两个数据一定是有联系的，但又不能把A的第一个数据和B的第二个数据联系起来，所以数据必须一一对应。还有另一种情况，虽然不是同一个人做的，但是实验对象还是两两一对，得出的数据也是两两一对不能拆开，而且是matched-pairs的情况。比如研究情侣的消费水平，双胞胎谁会更高等等。他们往往有个不可分割的关系，也使得他们的数据牢牢绑定在一起。

写在最后

抽样检测不仅是统计中非常重要的一部分，在其它AP科目中往往也占据一席之地。因为统计本身就是多个学科的基础，连题目都涵盖了各个领域。

AP统计作为一门基础学科，其难度在AP中并不能排上一二，若你感到难以应付，那你可能暂时还没有找到攻破它的套路。

【竞赛报名/项目咨询+微信：mollywei007】