第10章　数据有没有欺骗性 - 不知来历的和带有偏见的数据 - 《学会提问》

不知来历的和带有偏见的数据

不知来历的和带有偏见的数据

最近一个新闻标题：40%的大学生饱受抑郁症的折磨！

在你情绪低落的时候你该不该过分担心呢？你又怎么知道自己可以相信这样的统计数据？

任何统计数据都要求将发生在某地的某些事件界定并准确识别出来，这常常是一项非常艰巨的任务。因此，要找出欺骗性的数据，第一个策略就是尽量找到足够多的关于这些数据是如何采集的信息。我们能不能准确地知道美国到底有多少人在报税单上做过手脚，多少人有过婚前性行为，多少人开车打手机，或多少人使用违禁药品？如果你想象一下做这些统计的细枝末节，我们怀疑你的答案会是“不太可能”。为什么？因为要为特定的目标而得到精确的数据，你常常会遇到各种各样的拦路虎和绊脚石，其中包括关键词语的模棱两可，识别相关人员或事件的种种困难，人们不愿意提供真实信息，人们不能报告各种事件，还有观察事件的种种身体上的障碍等。因此，统计数据往往只能是基于事实做出的一些估计。这些估计有时候很有用，但它们也可能有欺骗性。记住总要问一句，“作者是怎样得出这个估计的？”你得到的细节越多越好。

不知来历的统计数据最常见的一个用处就是用大量的数字给别人加深印象或让别人肃然起敬，这些呈现出来的数字的精确性常常会让人怀疑。比如，大量的数字可能被用来提醒公众注意日见增长的身体失调或精神失常的发生率，例如癌症、饮食异常或幼年孤僻症等。如果我们能知道这些数据确定的过程是如何仔细，我们肯定会更加深受这些数据的感染。比如一直以来人们都在努力统计大学生抑郁症发病率的准确数据，但是不知来历的数据问题已经成为影响统计的一个主要因素，研究报上来的发病率存在10%～40%的跨度。所以，本章一开始提到的那份研究如果让你觉得过度惊慌的话，你未免显得有些杯弓蛇影。记住：在对这样的数据做出反应之前，我们先要问一声它们是怎么得来的。