视知,您还会用数据呐?!

《拆穿数据胡扯》确实是本好书

最近看到「著名科普博主」@视知 发了条视频《校园暴力80%来自女生?数据怎样骗你》。正如标题写得那样,视知团队查到了这个校园暴力数据的来源,并试图论证这个结论是片面的,数据本身是有问题的。当然,主要目的还是为了介绍、推广一本今年新出的书《拆穿数据胡扯》

可你视知本身就是乱用数据,胡扯结论的高手啊!

没见过这么贼喊捉贼的。

算下来,我跟视知也算是同行,谁也不是第一天出来读论文、看数据了,就算不读这本书,该怎么分析数据,我想视知的编辑和写手们自己心里应该清楚。你们自己都胡扯了些啥,应该也有点数吧。

拆穿数据胡扯?

《拆穿数据胡扯》确实是一本好书,我自己也买来读过,受益匪浅。在这个没啥人看书的时代,推荐这样一本严肃的书籍总是费力不讨好的,但还是想和看到这篇文字的朋友说,这本书真的值得一读。

当然,别读成视知那样就行。

这本书主要讲的是,如果看穿那些「巧用」统计学技巧,拿真实数据,「编造」出来的错误结论。比如我们常开玩笑说的那个「所有喝水的人都会死」。

具体到视知「校园暴力」这条视频。他们也是先找到了「校园暴力80%来自女生」这个结论的数据来源,然后用其他证据和研究,从多个角度论证这套数据本身是有偏差的,所以得出来的结论「校园暴力80%来自女生」是错的。

我自己对校园暴力性别问题没有研究,也不好说视知的说法及论证过程是否正确。但有一点我觉得不对,或者说至少是视知读书不细致的表现。

视知在自己「拆穿数据胡扯」的过程中,引用了一篇文献《我国校园欺凌事件主要特征与治理对策》中的结论:

在因为变量为“欺凌行为过程是 否拍视频炫耀”回归方程所涉及的五项自变量中,“被欺凌者性别”的显著性系数为 0.004,通过了 0.05 的显著性检验,在对因变量的回归系数为正向值 4.923,说明当被欺凌者为女生时比被欺凌者为男生要高出近 5 倍的概率被拍摄侮辱视频。

我关心的并不是这个结论是否正确。而是视知究竟有没有好好读书。

「p 值」是统计学上常用的一个数据。所有的数据统计都有偶然因素,所谓「p 值」就是用来看偶然性大小,从而判断数据是否可靠的。简单来说,当 p < 0.05 时,意味着偶然性发生的概率低于 5%,统计结果显著。比如「所有喝水的人都会死」,那考虑到大家终究是「尘归尘,土归土」,p = 0,那么统计结果肯定是没问题的。

当然,从这个案例中你也能看出来,P 值显著与否,并不能完全代表结论是否正确,它就是一个统计学中处理数据的方法而已。在《拆穿数据胡扯》这本书中,作者花了大量笔墨介绍「p 值操纵」,包括怎么选数据啊,怎么写结论啊之类的。我自己在写稿子看论文的时候,遇到 p 值操纵的情况数不胜数。既然他们是介绍这本书,那我默认他们读过全书应该不过分吧?咋明知 p 值可以操纵,仍然在拿 p 值说事?

我估计他们是找不到的论文了……

错误远不止这点

当然,如果就这点事,那我自己都觉得有些过于吹毛求疵了。问题是,视知自己不注意数据来源,胡乱引用不靠谱的数据,也不是一次两次了。这次讲「校园暴力性别问题」,显然是有点「既要当婊子,又要立牌坊。」

举个例子?哈,那我这可是有不少呢。

养狗很贵,养导盲犬也是

2021 年 4 月,视知曾发布过一支视频《导盲犬到底是不是“骗局”?》。首先,里面就有个直接用错的数据。

抄数据都能抄错

视频中讲:

在今天的德国,每 600 位视力残疾人士就有 50 只导盲犬。

我当时看到这就觉得不对,按照德国 8000 万总人口估算,少说四五十万盲人,这么算下来怕是得有几万只导盲犬,说实话我觉得全球可能都没有这么多导盲犬。果然,在视频发出后没几天,他们就说正确的数据应为:

在今天的德国,每 50 万位视力残疾人士就有 600 只导盲犬。

那么这个数据是哪来的呢?我用英文关键词简单查了查,并没有看到相关报道。翻看了视频末尾资料来源后,这个数据是源于澎湃的一篇文章

但问题是,澎湃这篇文章中说的是,德国一共有 50 万盲人,600 只导盲犬。《生命时报》曾在 2014 年发表过一篇文章也提到说「德国约有 1/10 的居民是残疾人,其中,盲人和视力残疾者的人数在 50 万左右。」这「一共 50 万」和「每 50 万」之间,表达的含义似乎不太一样吧……多一个「每」字,搞得好像德国视障人士很多一样。

私以为,这句话应该这么说:「全德国一共 600 只导盲犬。」

更加可笑的是,视知在解释完这个自己「胡编」的数据后,还好意思说:

导盲犬在发达国家的服役历史很长,普及率相对也相对高,将之称为“骗局”,确实有失偏颇。

当然,谁都有犯错的时候,我可以善意地认为,上面这就单纯是个笔误。但接下来的两个数据和结论的错误,我觉得那就是单纯揣着明白装糊涂,乱用数据编结论。

你赚多少钱啊

视知在视频中讲:

盲人养导盲犬,和普通人养宠物狗的花销,是一样的。如果养得起一只狗就是“特权阶层”,2020 年中国 3500 多万人养了 5200 多万只宠物狗,这特权阶级的定义是不是太宽泛了? 2019 年,中国人均单只宠物犬年消费是 6082 元,平均下来每月大概 500 元。如果盲人朋友有了导盲犬,可以自由地出去工作,每月负担 500 元的养狗费用,不会太困难。

嘿,你猜中国有多少人?14 亿。也就是只占 2.5% 而已。我没有具体查这个统计数据,是否包括了农村养的土狗,如果排除掉农村人家养的土狗,那么这个养狗人数和比例可能会更低。我就按宽泛了算,承认 2.5% 这个数据。

你猜我国 985 和 211 大学录取率分别是多少?985 不同年份大概是 1.6%–2%,211 大概是 5%.

我是山东人,我上高中的时候,平均每个班大概是 50–60 人,也就是说像这种规模的高中班级,平均下来每个班也就是第一名上 985、第二名上 211 的水平。回想一下你上学时候,班里第一第二是不是特别受老师照顾?

当然我想讲的重点并不是这个,而是「每月养狗平均花费 500 元的事」。

这支视频是 2021 年 4 月发的,用的很多数据也是 2019、2020 年的数,那我也引用 2020 年的数据好了。根据国家统计局的统计数据,2020 年,我国居民人均可支配收入的中位数为 27540 元,平均下来每个月不到 2300 元。注意,是中位数哦!统计局对「可支配收入」的定义是「居民可用于最终消费支出和储蓄的总和」,说白了就是扣完各种税后到手的钱,比较宽泛,你什么还车贷、房贷,交的房租,都没有扣出去。也就是说,这相当于是要拿到手收入的五分之一以上来养狗,还觉得「不会太困难」吗?

2020 年两会,总理答记者问时说「有 6 亿人每个月的收入也就 1000 元」,事后有无数人解释这个数据是怎么回事。但无论怎么算,那些没有收入的人,也是一张吃饭的嘴啊!一只狗要吃掉这些家庭半个人的收入,我想这怎么也不能说是「不会太困难」。

找工作不要指望狗

上面是乱用数据的,下面还有乱造逻辑的。

视知在视频中说:

如果盲人朋友有了导盲犬,可以自由地出去工作。

按照视知逻辑,盲人有了导盲犬,就可以出去工作。说明「有导盲犬」是「出去工作」的充分条。那没有导盲犬的盲人呢?

视知引用的澎湃的数据说,中国一共也就 200 导盲犬。我这里也用这个数据好了。

那中国有多少盲人和视障人士有工作呢?我想用两个例子。

第一个是政府数据。我国云南省从 2016 年初开始搞「助盲脱贫」行动,两年间培训了近 5000 位盲人按摩师,其中 80% 以上参与工作,月均收入 3500 元以上。

第二个是我亲身经历。由于工作原因,我的肩颈经常出问题,有时候也会去找盲人按摩师帮忙按按。在北京,这样由视障人士组成的按摩店遍地都是,我经常去的那家店里,大概有十几个师傅,纯按摩的费用,大概是 90 分钟不到两百块,从头到脚都给你按了,非常舒服。

考虑到我国也就 200 只导盲犬,按照视知的逻辑,这些盲人就不能出来工作了?显然不是啊!让他们出来工作的,不是 20 万一条的狗,而是一项又一项助盲政策。

这条视频中逻辑错误可不仅仅有两条,其他的我也懒得说了。

艾滋靠「谁」传播?

2020 年 12 月 1 日「世界艾滋病日」,视知发布视频《怎样消灭艾滋病?》。这么一个简单的事,我没想到都能出数据引用问题。

武汉 ≠ 湖北

视频 8:30–8:33 中配音脚本为:

陕西、湖北等地的统计数字,都指向了同样的问题。

视知并没有明确写出来「同样的问题」具体指什么,我根据上下文总结,这个「问题」完整表述应该为「男男同性性传播是中国部分地区艾滋病传播主要途径」。

我们暂时放下「问题是什么」,先看看措辞。配音中念的是「湖北」,字幕中写的是「湖北」,但画面上引用的材料,清清楚楚只写了「武汉市」和「市卫计委」。

如果你觉得我这里太吹毛求疵,那让我们回到「梦开始的地方」,再来看开头「校园暴力」的视频中,视知是如何反驳「校园暴力 80% 来自女生」这个数据的:

从「视频中女生占 80%」推出现实中校园暴力实施者有 80% 是女性,是一个典型的偷换概念。

那根据这个思路,我能不能说「从『武汉市新增青年学生感染者人群中,男男同性性传播途径占比极高』,推出『湖北省新增青年学生感染者人群中,男男同性性传播途径占比极高生』,是一个典型的偷换概念」?毕竟湖北不光有武汉一个市。

谁在传播艾滋病?

视知在这个视频中,用多个地区「男男同性性行为」传播占比极高,来否定「传播艾滋病的主要是黑人留学生和女大学生」这个观点。颇有点用魔法打败魔法的意思。

这两个数据都不搭嘎啊。你要否定的观点,显然是一个要放眼全国和全年龄段来看的东西,拿什么北京、武汉这些地方,部分年龄群体的数据来当论据,显然是不对等的——北京、武汉的数据咋就等同于全国了?

我免费给视知一套数据。这也是我自己动手统计的,数据全部来自官方报道,有据可查。2021 年 12 月,我统计了 2020 年我国大陆 31 个省级行政单位艾滋病新增病例,当时只找到了 16 个省 1–10 月(上海市为 1 月–11 月 20 日),其中有五个地方公布了各传播途径的具体人数,分别是上海、天津、山东、浙江和湖南,再算上北京市公布的比例,总体算下来,如果把「同性性行为传播」等同于「男男性行为传播」,那么这六个地方,因同性性行为传播案例占约为有 40%,远不及异性性行为传播数据 55%。

另外,还有个云南,没公布总新感染人数,所以没统计在上面。猜猜云南 2020 年 1–10 月新发现感染病例中,有多少来自异性性行为?91.2%.

我想,这应该比单拿什么北京、武汉这种单蹦的地方,有说服力得多吧?


我很厌恶视知的视频,主要是没啥新鲜玩意儿还净讲错,所以看得也不多,上面两个是我印象深刻的例子。之前看他们的微博比较多,那错误……嘿嘿,但我也就懒得去翻了。

毕竟,一个信风水的老板,能做出来啥正经的科普呢?如果有兴趣,说不定之后还可以给他们做个合集,看大楼风水我不会,但写稿还是略懂一二的。