乌鸦观察
15.2K subscribers
7.28K photos
320 videos
491 files
16.6K links
不定期推送新闻和杂谈;您的订阅、投稿和转发是对我们最大的支持;

有任何事宜欢迎通过 @big_crow_bot 联系,因我们知识精力有限,期盼各位多多指正;

整理不易,转发请自觉标记出处;

推荐使用浅色模式阅读,深色模式加粗重点显示不明显;

同义词检索欢迎使用:https://t.me/bigcrowdev/11487

无穷的远方,无数的人们,都和我们有关,向收到此信息的世界致以美好的祝愿。
——地狱乌鸦
Download Telegram
#数据 #质量 #滞后 #单一归因

请谨慎使用质量很差的滞后数据做单一归因。

1)什么叫“质量很差的数据”?

我们通常用来做分析的数据,例如公司营收、宏观经济指标,它们当然也有误差,但与真实值至少是同一个数量级、同一个方向的(即数据反映“增长”,真实情况也是增长)。但是,疫情中各地汇报的数据,例如确诊病例、死亡病例,不仅与真实值有误差,而且我们完全不知道它们与真实值是否为同一个数量级,我们甚至无法确定它们的符号是否正确(确诊人数下降是否真的表示感染人数下降)。

为什么疫情数据的质量很差呢?

原因是各地的检测能力不同,允许民众检测的标准不同,判断是否感染的标准也不同。例如,加州看起来比纽约州的情况要好,但加州检测的人数是纽约的六分之一,而加州总人口是纽约的四倍。对比两个地方的“数据”就毫无意义。

就连大家认为很适合比较的死亡人数,不同地区对“病人是否因新冠病毒而死”的定义也不同,所以“比较死亡人数”可能也不是我们想象的那么有意义。若是比较同一地区前后的变化,我们也要确认上述提到的标准在这个地区前后都保持了一致——显然,很多地方的检测、确诊标准都在某个时间点发生了变化,所以纵向比较同一个地区前后的数据也没有意义。

2)什么叫做“滞后的数据”?

疫情的数据不仅质量很差,而且反映的都是该地区两三周以前的情况——病人从感染到出现症状要好几天,病人从出现症状到就医、接受检测也要好几天,很多地方的检测出结果又要好几天。所以,我们通过数据看到的,都是两三周之前的世界。

可能你会说,那我们在分析数据的时候考虑到延迟不就行了?是的,但难点在于,疫情是指数增长的,且我们对病毒还有很多不了解的地方,如果非要从滞后两三周的数据来推测现在的情况,那一定包含很多额外的假设,不确定性会很高。

3)什么叫做“单一归因”?

以前我写过(),讲故事的时候如果把复杂事件归结到一个因素上,故事可以讲得非常顺畅,大家听起来会很爽——与其解释 A、B、C、D 之间如何相互作用,共同导致了结果 X,且 A、B、C、D 各起了多大作用我们也不确定,倒不如简单说是 A 且只有 A 导致了 X。讲故事的人在简化的过程中会丢掉很多重要事实,但听故事的人只会觉得故事好听。

疫情也是一样。这样复杂的问题,我们仔细想想可能可以找到几十个影响因素:政策制定者的动机、政策制定者的专业水平、政策制定者的执行能力、民众对政策制定者的信任度、民众的风险接受程度、政策制定者及民众过往处理重大公共卫生危机的经验、地理、气候、交通网络、人口结构、人口密度、民众平时的社交距离、民众平时的卫生习惯、病情最早爆发的区域、政策制定者准备的时间……

我们的样本里只有两百个国家,疫情也只发生了一次,没有人可以很自信地说“就是 A 导致了 X”,我们甚至很难确定 A 是否是主要因素。

4)当然,我不是说大家应该放弃收集、分析数据。一个有数据的世界当然好过一个没有数据的世界。

只是,我们在讲故事的时候要认识到自己故事里隐含的假设、隐含的不确定性。我们在听故事的时候也要警惕那些 “A 且只有 A 导致了 X”的叙述。(yiqin_fu)