注册 登录
美国中文网首页 博客首页 美食专栏

ImYoona //www.sinovision.net/?70618 [收藏] [复制] [分享] [RSS] txgz999@yahoo.com

x

博客栏目停服公告

因网站改版更新,从9月1日零时起美国中文网将不再保留博客栏目,请各位博主自行做好备份,由此带来的不便我们深感歉意,同时欢迎 广大网友入驻新平台!

美国中文网

2024.8.8

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

柴静视频中图示的解读

热度 8已有 21308 次阅读2015-3-14 16:16 分享到微信

3/6/2015 方舟子最初的推特
https://mobile.twitter.com/fangshimin/status/573734653351174144

柴静视频中图示的解读_图5-1

柴静视频中图示的解读_图5-2



柴静视频中图示的解读_图5-3

柴静视频中图示的解读_图5-4


高清版:柴静雾霾调查:穹顶之下
https://www.youtube.com/watch?v=xbK4KeD2ajI

柴静视频中图示的解读_图5-5

柴静视频中图示的解读_图5-6

柴静视频中图示的解读_图5-7

柴静视频中图示的解读_图5-8

柴静视频中图示的解读_图5-9

柴静视频中图示的解读_图5-10


柴​静​雾​霾​调​查​片​《​穹​顶​之​下​》​中​有​争​议​的​“​中​科​院​给​我​们​提​供​的​测​算​显​示​,​当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​.​.​.​”​引​用​图​表​原​论​文​。​中​科​院​大​气​物​理​研​究​所​、​北​大​医​学​院​等​单​位​做​的​【​北​京​大​气​颗​粒​物​粒​级​对​死​亡​率​影​响​的​时​间​序​列​分​析​】​。
Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing


3月19日补充:

蒙枪枪垂问,勉为其难的了解了一下柴静视频中一个有关P​M​2​.​5值和死亡率关系的图示引发的争论。

初读之下我有这样三个疑问:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假设状态?
2)为何三条曲线和三个三次函数的值不匹配?
3)为何柴静的最上面一条曲线与论文图完全不同?

看了柴静视频的那个片段,通读了原始论文以及方舟子和岳东晓的相关博文,最主要是靠了一剑和枪枪两位好友的点拨,感觉现在基本理解了该图示的意思。所以我来用自己的语言来谈谈我的理解。

柴静图是基于原始论文及其中的图6。这图说的是2005至2009年北京市的PM2.5值对三种常见死亡原因(循环系统,呼吸系统,非意外事故)的死亡率的影响,更明确的说是测算在每天PM2.5值增加10时,这三种死亡率的增加幅度。

有意思的是当考虑PM2.5值对死亡率的影响时,作者并没有直接比较那些年份间PM2.5的大小和死亡率的大小的关系,在论文中甚至没列出那些年的死亡率,而是估算了一个假设的问题,在同一时间段如果PM2.5增加10,死亡率会有多大变化?

论文作者在北京某北三环和北四环之间的密集居住区的某个点上持续5年测量了每天的PM2.5值,又用了国家机构提供的北京市每天各种死亡原因的死亡数数据。具体的测算方式据作者说是基于时间序列分析,我没学过这个理论,但如果我有一年365天每天的死亡数和PM2.5值,我会如何估算呢?我们知道这些PM2.5的值大致是几十多的有一百多。所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

这样我们就有了这五年每年这三种常见死亡原因的死亡率的增长率的估算值,然后用曲线拟合来描述这个增长趋势,这是个简单的数学问题,就是如何选取一定次数的多项式曲线来尽可能的和给定的样品点拟合,这在数学上称为最小二乘曲线拟合 (curve fitting in the least-squares sense) http://read.pudn.com/downloads144/ebook/629385/minleast.doc, 我们可以用一个拟合度(R^2值)来衡量这种拟和程度,这值最大是1,当曲线经过所有样品点时达到。

论文图用的是四次曲线来拟合五年的数值,所以拟合度达到1,而柴静的图用的是三次曲线来拟合五年的数值。这说明柴静图和论文图曲线的不同是因为前者用三次曲线吻合而后者用四次曲线,至少从数学上讲两者都是正确的结果。当然从这个具体问题看,也许可以说由于样品点的上下波动,三次曲线难以和样品点有很好的吻合,应该用四次曲线来吻合更合适。当然是不是需要用四次曲线来拟合又和想要得到的结论有关,在论文中强调的一点是2008年北京奥运会前对空气污染的控制,那用四次曲线就很有必要。而柴静要说明"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​",那用三次曲线来拟合也能行,事实上曲线拟合都不需要,因为这五年每年的死亡率测算结果都说明了这个结论。

也许有人会认为"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"这样一个结论是显而易见无需论证的,其实也许也不尽然,因为同一篇论文还发现了P​M​2​.​5​-10的​值​的升​高对​人​群​的​死​亡​率​没明确影响。

回到我前几天不解的问题。这图利用的北京PM2.5值是虚拟的吗?也是也不是。大致上讲它是在比较那五个年度PM2.5值(76,84, 78, 69, 65)时的死亡率和这些值增加10,即(86, 94,88,79,75)时的通过上述估算的死亡率的增长率。(在我前面的土测算法里严格的讲不一定就是这些数如76和86,而是那些对中大的半部分的平均和小的半部分的平均。所以也可能是比如75和85,相差一定是10。)

那么柴静说的当PM2.5值升高时死亡率是随之上升的是如何体现在图上的呢?这条曲线完全在横坐标的上方,所以每年(即每个横坐标点)都是一个证明柴静这句话的例子。前几天我一直以为柴静说的当P​M​2​.​5值升高指的是横向,即如果按年份不断增长,现在才知道是指同一时间如果PM2。5值高一些的话会对死亡率造成的影响。

记得推特或新语丝里有评论说图上显示的每年的死亡率数据,为何要提每天死亡率?当我们了解了估算的途径后就知道光有年死亡率是没法进行估算的。

还有论文图里标的每年的P​M​2​.​5值并不是官方的北京市数值,而且官方也没公布过这几年的数据(除2005年外)。这个数据就是依据作者在北京某处的逐日观察结果。

最后总结一下我对柴静图和论文图不同的理解。之所以不同是因为前者用的是三次曲线拟合而后者用的是四次曲线拟合。对于柴静想说明的结论"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"而言,拟合都是多余,每年的测算值都是正的本身就说明了柴静的结论。

柴静视频中图示的解读_图5-11



免责声明:本文中使用的图片均由博主自行发布,与本网无关,如有侵权,请联系博主进行删除。







鲜花
3

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

发表评论 评论 (183 个评论)

回复 ImYoona 2015-3-20 23:26
方枪枪: 我提到RR,是因为方岳的论战中,方提到了流行病杂志,并嘲笑对手不懂。在这个问题上,我认为方只是试图解释一个基本概念,方在这个问题上看起来没错。而一旦这个 ...
方舟子用的这个词满激烈的,容我再想想。我只想指出一点那就是认为柴静造没造假和方舟子是不是应该认为柴静造假不是一回事。认为造假是基于一定的事实判断的,如果对事实的判断有误,那结论也就可能因此错误。方舟子的博文我只匆匆看了一遍,还不敢确认他判断错误。但是如果要讨论方舟子该不该说柴静造假那应该在方舟子的判断是正确的前提假设下讨论。
回复 寒山老藤 2015-3-20 21:59
随笔: 认同,俺两人的看法常常是很相似滴。
我也这么感觉。希望不会有对立的那一天。如果真有,你也是我敬佩的“敌手”
回复 在美一方 2015-3-20 21:26
随笔: 大家好像在讨论图示的真实性和关联性,我个人认为,无论图式中的曲线反映的是不是客观趋势,用这个图证明雾霾高时死亡率就高都是没有依据的。

首先,死亡的原因 ...
1. 不止这么几个点,这几个点是年平均(我推测的,还需要看原文求证)

2. 滞后的问题,忘了原文有没有,记得好像是有的,如果没有,也是同一个研究组发过类似的数据(有关lag几天的估算)

3. 雾霾超细微粒的吸入,造成的的死亡risk增加是比较立竿见影的。
回复 在美一方 2015-3-20 21:23
ImYoona:    我自查了一遍做了些纠正,把前天和昨天写的综合了一下加在了博文里。欢迎具体说说现在在细节上还有哪些错误?

有关估算法的问题我不想改了,因为我对自 ...
细节错误比较致命的有

1. 所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

2. 对于柴静想说明的结论"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"而言,拟合都是多余,每年的测算值都是正的本身就说明了柴静的结论。

2的错误和岳的一样,也和岳大为推崇的某城网友的一样。
回复 随笔 2015-3-20 20:36
大家好像在讨论图示的真实性和关联性,我个人认为,无论图式中的曲线反映的是不是客观趋势,用这个图证明雾霾高时死亡率就高都是没有依据的。

首先,死亡的原因是多方面的,这么简单的几个点计算高死亡率和高雾霾的相关系数,即使是100%吻合,也是不科学。

其次,高度相关是在同一时间发生的,这怎么可能?我相信,雾霾肯定会对人的健康产生不良影响,不排除会提高死亡率,但不可能是同步的.911参加救险的那些消防队员,10多年后有些人得了癌症,专家给出结论和他们当时吸入过多灰尘有关,政府给了补贴,这个结论是可以令人信服。但如果有人没几个月就得癌症死了,你说是吸入过多灰尘所致,估计没什么说服力。

要证明两者的关系需要找出滞后的时间,不能这么草草的下结论。在两者的时间关联上柴静说的非常恍惚,我一直在等她解释,她也试图做出解释,但没有有力的证据。我也认为,她提供的资料已经good enough了,这个图示没有必要放到她的报告中来。
回复 随笔 2015-3-20 18:37
方枪枪:   
家人都还好,呵呵。是一看数学题就想起你是学统计方面的博士精英,呵呵结果天香说,随笔都半个月没露面了。
我不是太喜欢柴静的主持风格和这部片子,她 ...
看来我是孤陋寡闻了,才知道柴静这个人,才在视频里看到真面目,就是想说说我看完这篇讲演后的感想. 周末要是有空我去看看原文,看你们的讨论,好像话题很复杂,涉及面也很广,感觉我可能还是看不明白。
回复 方枪枪 2015-3-20 18:27
随笔: 枪枪好,这里一直在下雪,今年出奇的多。 不过,一下雪就可以在家偷懒了,特别是周五,白给个长周末。
好久没聊天了,很关心你的家人,还好吗?
你们好像是在其 ...
  
家人都还好,呵呵。是一看数学题就想起你是学统计方面的博士精英,呵呵结果天香说,随笔都半个月没露面了。
我不是太喜欢柴静的主持风格和这部片子,她的风格一贯是突出自己而忽略了新闻采访对象的本身,最后她的所有片子,人们记住的就是柴静,而不是片子要表达的内容。后来我忠实的表达了我的看法,和对数据的质疑,片子的不喜欢。
但是呢,这种表达在这里可能我们还能求同存异,别处,有的网友比较激动,就觉得不去看到污染问题就是没良啦之类的。很多地方也是出了不少关于方的解读,于是我就请天香把数据列一下,自己看下到底咋回事。
   不知道你有没有闲心看下那个原论文。

唉,都害天香花了一个周末了,不太好意思害你唉。哈哈。
回复 随笔 2015-3-20 18:15
方枪枪: 其实网上对人对事的看法,有时是永远不能说服对方的,这种做数学题式的一些讨论,有时有些乐趣。

你们那下雪了?我还在国内,今天起来准备去武大看樱花。祝你周 ...
枪枪好,这里一直在下雪,今年出奇的多。 不过,一下雪就可以在家偷懒了,特别是周五,白给个长周末。
好久没聊天了,很关心你的家人,还好吗?
你们好像是在其它地方讨论这个话题,大概是职业习惯,一见数学题就上瘾,认真看了你们的贴,越看越糊涂,可能是半路出家的原因吧。

也祝枪枪周末快乐。
回复 方枪枪 2015-3-20 18:05
随笔: 感谢天香的视频链接,让我终于有机会看到柴静的这个报告,解除了我对柴静的很多误解。说句实话,看完后很受感动,中国的高层领导人有几个像柴静这样脚踏实地的面 ...
其实网上对人对事的看法,有时是永远不能说服对方的,这种做数学题式的一些讨论,有时有些乐趣。

你们那下雪了?我还在国内,今天起来准备去武大看樱花。祝你周末快乐。
回复 随笔 2015-3-20 17:53
寒山老藤: 欣赏你严谨的探究风格。
柴静的视频从论文的角度来看应该有不少瑕疵,但从引发国人广泛和过度的重视这样的社会意义上看,是值得力挺的。 ...
认同,俺两人的看法常常是很相似滴。
回复 随笔 2015-3-20 17:48
感谢天香的视频链接,让我终于有机会看到柴静的这个报告,解除了我对柴静的很多误解。说句实话,看完后很受感动,中国的高层领导人有几个像柴静这样脚踏实地的面对雾​霾​,不是在那里空谈要保证北京的神马蓝要一直持续下去:神马时候见不到蓝天,就要提头见。 。 。那时候北京蓝就有希望了。

看得出来,柴静做了大量的实地调查,掌握了很多第一手资料,她不是科学家,作为记者,或者说一个平民百姓,这个报告比很多科学家的论文,比当官的盲目的许愿要更有价值,同为记者,这个视频要比小崔的那个转基因视​​频科学有力的多。最大的区别,她是在像你介绍她的观点,小崔是要把他的观点强加给你。

我是学统计的,从专业的角度我同意大家的说法,她展示的图示并不具有很强的代表性和说服力,但她给出的其它证据基本可以支持她的论点,这只是她报告中很小的一部分,基本是一代而过。其实,雾​霾​和人的健康的关系,她说和不说,很多人早就有了自己的见解,不会被她出示的一个图和一句解释误导。

我觉得她这个报告的可贵之处是她用很多数据讲解了我们不知道的,雾​霾和国家经济,我们每一个人的生活习惯的关系,用很通俗的语言,让大家了解了很多相关的知识。更可贵的是她从制度,经济建设和每个个体行为的结合上给出了很多切实可行的建议。让我感觉,治理雾霾是一个多方位的行为,不是一个空洞的口号。

看了方舟子的评论,他的质疑不无道理,但他的结论真的让人无法认同:“ 请问这是不是造假?这是不是用假图欺骗全国人民?” 我看不出柴静是在欺骗全国的百姓,以前方舟子就一再强调,雾​霾和癌症没有关联,不知他的科学依据在哪,目的是什么?

今天下雪,憋在家里,正好有机会看到这个一直想看的视频,有些话也是为了说出来痛快,和你们的讨论无关。说实话,你们在讨论的东西我只看明白个大意,没完全懂。
回复 方枪枪 2015-3-20 15:55
任志强为柴静纪录片辩护称:“任何科学的论文都可能存在着不科学性!因为社会的进步与科技的发展,一定会建立在超越原有科技的基础之上。熊彼得的‘创造性破坏’大约就是这种原理。在现有民众可能的科学性调查中,柴静的调查和引用已经尽可能的做到科学了。”

我现在证明的是,柴静的调查和引用并没有“尽可能的做到科学了”,如此不认真、不严肃,如此误导、造假,又谈何“科学”?科学允许犯错,但科学不允许马虎,更不允许造假。尽管任何科学的论文都可能存在着不科学性,但是一篇科学的论文一旦被发现了存在着不科学性,它也就作废了。任志强以科学论文比拟柴静纪录片,那么柴静纪录片也就作废了。

有人说,尽管柴静纪录片存在这样那样的问题,但是它引起了全社会对环境问题的关注,是个好事,没有必要揪它的毛病。这种说法是倒因为果。是因为全社会对环境问题的关注,才引起了对柴静纪录片的关注,而不是相反。无论如何,错的就是错的,假的就是假的,没有任何借口可以免受批评
-----------------
这是方比较新的发言。
回复 方枪枪 2015-3-20 15:53
我们讨论的这个视频
大部分人认为没有造假,是因为引用的数据是真实的。
而认为是造假的则就是方那样想的,改动了原图,数据的引用问题。这就是阿门说的引用的数据和数据的引用。
至于误导,是肯定的,
回复 在美一方 2015-3-19 20:19
方枪枪: “另外我觉得一剑画的图是要说明柴图是要数据为她的 propoganda 服务的主观意愿”
就是这个意思,不然,柴静手指那根红线,说到“这条红线虽然是上升的趋势,但是没有科学上承认的统计学意义”,岂不是砸了锅?

而真实准确的说法,还真是应该这句话,不然就老老实实地把起伏的曲线拷贝上去就好。
回复 方枪枪 2015-3-19 20:11
也许有人会认为"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"这样一个结论是显而易见无需论证的,其实也许也不尽然,因为同一篇论文还发现了P​M​2​.​5​-10的​值​的升​高对​人​群​的​死​亡​率​没明确影响。
---------------------------
天香这个意思我觉得是对的,但也不完全尽然吧。等过两天看各路人马亮相再最后发声。

另外我觉得一剑画的图是要说明柴图的拟合是要数据为她的 propoganda 服务的主观意愿
回复 方枪枪 2015-3-19 19:19
ImYoona: 看了看relative risk的概念
http://en.m.wikipedia.org/wiki/Relative_risk
感觉和我前天的对图的理解是一致的

针对这个具体问题,non-exposed group指 ...
我提到RR,是因为方岳的论战中,方提到了流行病杂志,并嘲笑对手不懂。在这个问题上,我认为方只是试图解释一个基本概念,方在这个问题上看起来没错。而一旦这个数学问题要涉及到流行病学(听一剑也这么说),我就只有打住了。

再就是造假的定义,你认为算造假吗,一剑坚持认为是造假。但我们非专业领域的还真不知道这个定义有没有特定标准。
回复 ImYoona 2015-3-19 18:00
在美一方: 有那么点意思,不过基本上细节全错   
我自查了一遍做了些纠正,把前天和昨天写的综合了一下加在了博文里。欢迎具体说说现在在细节上还有哪些错误?

有关估算法的问题我不想改了,因为我对自己想的naive方法已经很满意了
回复 ImYoona 2015-3-19 16:21
方枪枪: 笑死我了。 我怎么感觉自己把你害得很惨似的。罪过。
看了看relative risk的概念
http://en.m.wikipedia.org/wiki/Relative_risk
感觉和我前天的对图的理解是一致的

针对这个具体问题,non-exposed group指的是在PM2。5值处于实际情况下的北京人,exposed group指的是在PM2。5值假如升高了10后的情况下的北京人,risk指的是死亡率
回复 ImYoona 2015-3-19 06:38
方枪枪: 看到了你的新补充。看来我还要不停的看这个贴,你是在这个里面修改的。
这是新增补的部分,提上来:

记得推特或新语丝里有评论说图上显示的每年的死亡率 ...
你看得还真仔细,的确在最后加了这两段,还有一剑说我细节错误甚多,所以把看到的用词上的错误也改了一下。准备等过两天把你们说的RR看懂后,把我的认识总结一下补充在文后,到时再请你们批作业。
回复 岳东晓 2015-3-19 03:24
方枪枪: 你又忍不住回贴了。淡定,淡定。
哈哈,我看错了,原图有5个数据点,不是4个。

facelist

您需要登录后才可以评论 登录 | 注册

 留言请遵守道德与有关法律,请勿发表与本文章无关的内容(包括告状信、上访信、广告等)。
 所有留言均为网友自行发布,仅代表网友个人意见,不代表本网观点。

关于我们| 反馈意见 | 联系我们| 招聘信息| 返回手机版| 美国中文网

©2024  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

回顶部