第8章　证据的效力如何：个人观察、研究报告和类比 - 样本能够代表整体吗 - 《学会提问》

样本能够代表整体吗

样本能够代表整体吗

作者或演说者通常拿研究报告来支撑他们的概括性结论，也就是关于一般性事件（events in general）的断言。比如，“在本研究中，此例药物对75%的癌症患者治疗效果明显”并不是一个概括性的结论，而“此例药物可治愈胰腺癌”才是概括性的结论。我们对见到的很多公开发表的概括总结都需要做进一步的检查，看看有没有可能是过度概括（overgeneralizing）。下面让我们来看看是为什么。

首先，我们抽取样本的方式对判断我们能在多大范围内进行概括至关重要。能否从研究结果中进行概括主要取决于科研人员所研究的事件或人群的样本数量、覆盖范围和抽取的随机性。选取事件或人群进行研究的过程就叫做抽样（sampling）。

因为研究人员永远不可能对他们想概括的所有事件或人群无一例外地进行研究，他们必须要选择一些样本来做研究，但是有些抽样的方法比其他抽样方法更加可取。在你评价研究样本的时候，有几个重要的考虑因素必须要铭记在心。

（1）样本的覆盖率必须要大到足以产生概括或得出结论的程度。多数情况下，研究人员观察的事件或人群越多，他们得出的结论也就越可靠。如果我们要对“大学生在做学期论文时从别人那里获得帮助的频率有多高”这一课题概括出一般性的看法，我们研究1 000名大学生比只研究100名大学生自然会更有说服力。

（2）对研究者将要从中得出结论的所有事件的类型，样本必须覆盖足够的范围或者说包含足够的多样性。例如，如果研究者想要归纳出大学生一般的饮酒习惯，那么他们的证据必须要建立在从各种不同类型的大学的各种不同类型的学生中进行抽样的基础之上。

（3）样本的随机性越大越好。如果研究者随机取样的话，他们就在尽量保证想要概括的所有事件都有同等的机会得到抽样，同时也在竭力避免片面的取样。大型的民意调查，像盖洛普民意测验，常常都尽量随机地抽取样本，这样可避免特定类型的有片面特征的事件或人群局限了样本范围。你能不能看出以下每个样本具有什么片面特征？

（1）自愿报名接受访谈，讨论他们性行为的频率的一群人。

（2）只有有线电话的一群人。

（3）一堂心理学导论课上的学生。

（4）特定电视网的观众，比如说福克斯电视网（FOX）或者是微软全国有线广播电视公司（MSNBC）。

因此，我们就要对所有的研究问一问，“他们抽样的事件或人群有多少，样本的覆盖率有多大，样本的随机性怎么样？”

没有致力于搜集足够样本进行研究所导致的就是研究结果的过度概括，所表述的概括性结论远远超过此项研究所能保证的范围。在第7章里，我们已经提到过以偏概全这样过度概括的谬误。现在我们来仔细看看一项过度概括的研究：

参加在线约会的人极有可能成功找到自己的佳偶。有一项针对229人的在线调查，对象是年龄在18～65岁有过互联网在线约会经历的人，调查询问他们在网上的主要人际关系。调查结果显示：接受调查的人当中有94%的人在第一次见过他们的网络伴侣之后会再次约会，这种网络情缘平均持续时间至少可达到七个月。

抽样的程序不允许这样一个宽泛的概括结论。此项研究的报告暗示这一结论可以推广到“所有”使用在线约会服务的人，而研究本身却只针对一个在线网站和229人这样一个小群体，而且研究并没有交代样本是如何选取的，因此，网站的随机性和覆盖率也无从得知。例如，也很有可能那些自愿参加调查的人都是那些成功找到佳偶的春风得意的人们。因此研究报告有瑕疵，因为它过度概括的程度太大。

小贴士：只有和我们研究过的人群或事件类似的或相同的情况我们才能加以概括。