【江湖夜雨十年灯】 Data never lies?! 那人呢?

“Drill down your data, because aggregates lie!” — Quote

记得古时候 (大概30 年前吧),曾经有一个非常出名的江湖骗局,虽然简单但是却有奇效。就是在火车上或者街头,一个人左手拿红色和蓝色两支笔,右手拿一个1-2 厘米宽的纸带,在两支笔上套来套去,最后停住不动,这时让你下赌注:猜纸带套在哪一支笔上? 这么简单的一个游戏,令很多人上当受骗。我大学一个同学,1993 年从湖北去上海出差,在火车上和人家玩这个游戏,输了2000 多人民币。90 年代2000 多元,那可是值钱得很啊!

这个骗局的关键是: 纸带最后套在哪一根笔上,完全取决于最后如何解开纸带。比如,逆时针解开,则会套在红色笔上;如果顺时针解开,你会发现最后纸带是套在蓝色笔上。这么一来,庄家永远处于不败之地,你怎么可能会赢呢?

现在是大数据时代,人人与数据密切相关。了解大数据不仅仅是专业人士的需要,也是每个普通人的必须。否则,可能被无良商家用所谓的大数据忽悠了,还不自知。

Data never lies! 这句话是行业名言。 所谓数据不会说谎,那人呢? 数据不会说谎,而如何解读数据,就像上面的江湖赌局一样,则是大有套路,商家会正面反面都有理,永远不会错。不信?! 好,看看下面的例子。

两个学校 School A and School B 升学率的数据,如果你单看男生和女生的升学率,会发现 B 校都高于 A 校。但是如果把男女生综合起来看,会发现 A校升学率反而反超 B校 (47.0%  vs. 41.0%)。 神奇不? 这样的话,如果 B 校想忽悠你,只给你展示男女生各自的数据,不展示综合数据,你是不是就中招了?反过来,A校可以只给你看综合数据,而不给你看分解数据,A 胜于B,  同样没毛病!瞧瞧,公说公有理婆说婆有理,两个人还都没有错。这个和那个江湖赌局是不是有异曲同工之妙?

这个例子,在统计学里被称为辛普森悖论 — Simpson’s Paradox。由英国数学家 Edward Simpson 于1951 年发现,非常著名。感兴趣的朋友可以阅读以下参考文献:

  1. https://en.wikipedia.org/wiki/Simpson%27s_paradox
  2. https://towardsdatascience.com/simpsons-paradox-how-to-prove-two-opposite-arguments-using-one-dataset-1c9c917f5ff9

国内李永乐老师也有视频谈到这个辛普森悖论,解释得深入浅出,非常易懂:

所以,大家不要过分迷信大数据。有时候,大数据也能蒙蔽你的双眼。有些商家就是利用辛普森悖论,有意地欺骗消费者。Data interpretation, 数据的解读(尤其是深度解读,不能只看表象)和数据的真实性,同样重要。商场套路深,我要回农村!

大家看看下面这张图,是不是也是趣味横生,引人深思?

所以,有句关于统计学的名言,由于美国著名作家马克-吐温曾经引用过,从而家喻户晓:

There are three kinds of lies: lies, damned lies, and statistics.”

“借我借我一双慧眼吧,让我把这纷扰,看得清清楚楚明明白白真真切切~~~”,送各位一首《雾里看花》,祝大家圣诞快乐!

Responses

error: Content is protected !!