注册 登录
美国中文网首页 博客首页 美食专栏

ImYoona //www.sinovision.net/?70618 [收藏] [复制] [分享] [RSS] txgz999@yahoo.com

x

博客栏目停服公告

因网站改版更新,从9月1日零时起美国中文网将不再保留博客栏目,请各位博主自行做好备份,由此带来的不便我们深感歉意,同时欢迎 广大网友入驻新平台!

美国中文网

2024.8.8

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

柴静视频中图示的解读

热度 8已有 21484 次阅读2015-3-14 16:16 分享到微信

3/6/2015 方舟子最初的推特
https://mobile.twitter.com/fangshimin/status/573734653351174144

柴静视频中图示的解读_图9-1

柴静视频中图示的解读_图9-2



柴静视频中图示的解读_图9-3

柴静视频中图示的解读_图9-4


高清版:柴静雾霾调查:穹顶之下
https://www.youtube.com/watch?v=xbK4KeD2ajI

柴静视频中图示的解读_图9-5

柴静视频中图示的解读_图9-6

柴静视频中图示的解读_图9-7

柴静视频中图示的解读_图9-8

柴静视频中图示的解读_图9-9

柴静视频中图示的解读_图9-10


柴​静​雾​霾​调​查​片​《​穹​顶​之​下​》​中​有​争​议​的​“​中​科​院​给​我​们​提​供​的​测​算​显​示​,​当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​.​.​.​”​引​用​图​表​原​论​文​。​中​科​院​大​气​物​理​研​究​所​、​北​大​医​学​院​等​单​位​做​的​【​北​京​大​气​颗​粒​物​粒​级​对​死​亡​率​影​响​的​时​间​序​列​分​析​】​。
Time-series analysis of mortality effects from airborne particulate matter size fractions in Beijing


3月19日补充:

蒙枪枪垂问,勉为其难的了解了一下柴静视频中一个有关P​M​2​.​5值和死亡率关系的图示引发的争论。

初读之下我有这样三个疑问:
1)柴静说'当PM2.5值升高的时候',是在说2005-2009的实际情况,还是在说一种与事实不同的假设状态?
2)为何三条曲线和三个三次函数的值不匹配?
3)为何柴静的最上面一条曲线与论文图完全不同?

看了柴静视频的那个片段,通读了原始论文以及方舟子和岳东晓的相关博文,最主要是靠了一剑和枪枪两位好友的点拨,感觉现在基本理解了该图示的意思。所以我来用自己的语言来谈谈我的理解。

柴静图是基于原始论文及其中的图6。这图说的是2005至2009年北京市的PM2.5值对三种常见死亡原因(循环系统,呼吸系统,非意外事故)的死亡率的影响,更明确的说是测算在每天PM2.5值增加10时,这三种死亡率的增加幅度。

有意思的是当考虑PM2.5值对死亡率的影响时,作者并没有直接比较那些年份间PM2.5的大小和死亡率的大小的关系,在论文中甚至没列出那些年的死亡率,而是估算了一个假设的问题,在同一时间段如果PM2.5增加10,死亡率会有多大变化?

论文作者在北京某北三环和北四环之间的密集居住区的某个点上持续5年测量了每天的PM2.5值,又用了国家机构提供的北京市每天各种死亡原因的死亡数数据。具体的测算方式据作者说是基于时间序列分析,我没学过这个理论,但如果我有一年365天每天的死亡数和PM2.5值,我会如何估算呢?我们知道这些PM2.5的值大致是几十多的有一百多。所以在这365个数组里,会有一些两组两组的能成为一对,它们的PM2.5值会相差将近10。我们就计算对应的死亡数的增长率,然后把每对所得的死亡数的增长率做个平均,就得到一年的估算值。

这样我们就有了这五年每年这三种常见死亡原因的死亡率的增长率的估算值,然后用曲线拟合来描述这个增长趋势,这是个简单的数学问题,就是如何选取一定次数的多项式曲线来尽可能的和给定的样品点拟合,这在数学上称为最小二乘曲线拟合 (curve fitting in the least-squares sense) http://read.pudn.com/downloads144/ebook/629385/minleast.doc, 我们可以用一个拟合度(R^2值)来衡量这种拟和程度,这值最大是1,当曲线经过所有样品点时达到。

论文图用的是四次曲线来拟合五年的数值,所以拟合度达到1,而柴静的图用的是三次曲线来拟合五年的数值。这说明柴静图和论文图曲线的不同是因为前者用三次曲线吻合而后者用四次曲线,至少从数学上讲两者都是正确的结果。当然从这个具体问题看,也许可以说由于样品点的上下波动,三次曲线难以和样品点有很好的吻合,应该用四次曲线来吻合更合适。当然是不是需要用四次曲线来拟合又和想要得到的结论有关,在论文中强调的一点是2008年北京奥运会前对空气污染的控制,那用四次曲线就很有必要。而柴静要说明"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​",那用三次曲线来拟合也能行,事实上曲线拟合都不需要,因为这五年每年的死亡率测算结果都说明了这个结论。

也许有人会认为"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"这样一个结论是显而易见无需论证的,其实也许也不尽然,因为同一篇论文还发现了P​M​2​.​5​-10的​值​的升​高对​人​群​的​死​亡​率​没明确影响。

回到我前几天不解的问题。这图利用的北京PM2.5值是虚拟的吗?也是也不是。大致上讲它是在比较那五个年度PM2.5值(76,84, 78, 69, 65)时的死亡率和这些值增加10,即(86, 94,88,79,75)时的通过上述估算的死亡率的增长率。(在我前面的土测算法里严格的讲不一定就是这些数如76和86,而是那些对中大的半部分的平均和小的半部分的平均。所以也可能是比如75和85,相差一定是10。)

那么柴静说的当PM2.5值升高时死亡率是随之上升的是如何体现在图上的呢?这条曲线完全在横坐标的上方,所以每年(即每个横坐标点)都是一个证明柴静这句话的例子。前几天我一直以为柴静说的当P​M​2​.​5值升高指的是横向,即如果按年份不断增长,现在才知道是指同一时间如果PM2。5值高一些的话会对死亡率造成的影响。

记得推特或新语丝里有评论说图上显示的每年的死亡率数据,为何要提每天死亡率?当我们了解了估算的途径后就知道光有年死亡率是没法进行估算的。

还有论文图里标的每年的P​M​2​.​5值并不是官方的北京市数值,而且官方也没公布过这几年的数据(除2005年外)。这个数据就是依据作者在北京某处的逐日观察结果。

最后总结一下我对柴静图和论文图不同的理解。之所以不同是因为前者用的是三次曲线拟合而后者用的是四次曲线拟合。对于柴静想说明的结论"当​P​M​2​.​5​的​值​升​高​的​时​候​,​人​群​的​死​亡​率​是​随​之​上​升​的​"而言,拟合都是多余,每年的测算值都是正的本身就说明了柴静的结论。

柴静视频中图示的解读_图9-11



免责声明:本文中使用的图片均由博主自行发布,与本网无关,如有侵权,请联系博主进行删除。







鲜花
3

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

发表评论 评论 (183 个评论)

回复 ImYoona 2015-3-16 06:43
岳东晓: 各位的求真精神值得钦佩。我来说明几点:

(0) 整个讨论是一个探索真相的过程,大家对相关问题的理解可能是变化的;在真相面前,单纯固守之前的观点是不行的 。 ...
谢谢岳博士的点评。
回复 在美一方 2015-3-15 23:06
ImYoona: 敬礼    也许他们还有其它论文吧?我马上要出去,晚上再聊。
没了,原作者group 有大概3-5篇左右相似的论文,我都看过了,没有另外比这张更接近柴静的图了。
回复 寒山老藤 2015-3-15 22:44
ImYoona: 谢谢。蒙枪枪垂问,勉为其难读了读有关该图的争论。
如果没有柴静的片子,我也看不到很多关于雾霾的科学解释,也包括你的观点,所以,柴静的积极意义就在这里啦
回复 方枪枪 2015-3-15 16:49
岳东晓: 各位的求真精神值得钦佩。我来说明几点:

(0) 整个讨论是一个探索真相的过程,大家对相关问题的理解可能是变化的;在真相面前,单纯固守之前的观点是不行的 。 ...
谢谢你的说明。
不过,你先不要参与吧,呵呵。 因为数据和讨论太多,你讲述你自己的结论和观点以及方州子的一些你来我往,对于我们这些没有从头跟进的人来讲,脑子就乱了   

我们也不一定继续“探索下去”,但如果继续的话,对你的说法有不清楚的地方我再来湾问你,然后把你的回答转到这里。
回复 岳东晓 2015-3-15 15:08
方枪枪: 我有点怀疑柴的图出自原作者的另一篇论文,因为这篇里找不到柴图上的那些三次函数。如果能找到作者的其它相关论文就好了,如
The acute effects of fine particl ...
看罢这种论文,发现有的专业真好混。这种东东稍微动一点点脑筋可以写一大篇。

比如说,他这论文里死亡率雾霾关系是指数,没有上限,这显然不合理,那么就可以改改。。。
回复 岳东晓 2015-3-15 14:14
ImYoona: 让枪枪失望了,我真的看不明白。深感自己知识面的狭隘。特别是不用的东西忘的很快。时间序列分析理论是从来没学过,因此也不了解这些结论的意义和可靠性。

总结 ...
论文我在这里换成常见语言进行了简化解读 http://www.zhenzhubay.com/home.php?mod=space&uid=2&do=blog&id=28585

论文似乎根本没有讲图6 数据的来历,我的分析进行了确定
回复 岳东晓 2015-3-15 14:11
ImYoona: 岳东晓的(三):结论,关于PM2.5与死亡率,他说

2)柴静与原论文的区别在于,原论文使用三次曲线进行吻合,而柴静使用二次曲线;但无论根据原论文曲线,还是柴 ...
我最初说柴静的红色曲线的根据是:(1)曲线的形状像二次;(2)如果是三次,则能够完全fit四个点。

至于后来进行了补充是看到柴静视频上实际上列出了这条曲线的系数,其实是一条三次曲线,但三次项系数很小。柴静的视频还给出了 R^2 值。这个的R^2值明显小。有兴趣的也许可以在这个问题上进行动机判断。

但是正如我指出的,这条曲线的修改根本不影响结论。
回复 岳东晓 2015-3-15 13:53
各位的求真精神值得钦佩。我来说明几点:

(0) 整个讨论是一个探索真相的过程,大家对相关问题的理解可能是变化的;在真相面前,单纯固守之前的观点是不行的 。

(1) 原图6的文字说明漏掉了几个关键字(ASSOCIATED WITH 10 ug/m^3 INCREASE),这使我及其他最初没有读到论文的读者无法完全理解这幅图本来的含义,我的理解是死亡率的(滚动)递增百分比。实际上它是PM2.5值每增加10,相应的死亡率递增百分比。

(2)方舟子看了论文,他的理解是那是死亡率的曲线。即使原图6说明漏掉几个字,这一理解也明显错误。这一点,我以及很多人都指出来了。现在有人根据方舟子最初说的“三种疾病的死亡率的变化”替方舟子弥补,按这种新解释”死亡率的变化”是因变量。但从上下文看,方舟子的理解是“死亡率”是因变量,曲线是描述死亡率随时间的变化。方舟子认为柴静把死亡率由起伏改成了逐年上升,进行了篡改。非常显然,方舟子把曲线值理解成为死亡率。(方舟子:【这张图表示的是2005到2009年这5年北京pm2.5浓度、非事故总死亡率、呼吸系统疾病死亡率、循环系统疾病死亡率的情况。最上面的那条曲线是循环系统疾病死亡率的情况:在论文原图,最高的是2007年,2008年有所下降,2009年又升上了。但是在柴静的图中,这条曲线却变成了平滑上升,也就是说,这五年北京循环系统疾病死亡率是逐年上升的。这显然与事实不符,是对原图的篡改。】)因此,试图掩盖方舟子的错误的新解释无效。

(3)在阅读论文之后,我对论文进行了详细解释,去掉很多细节,只讲PM的影响。特别是那张曲线中的四个点到底是怎么来的,论文似乎没有讲,我进行了确定,它们实际上是模型中的系数在不同年份的值。我的解读参见: http://www.zhenzhubay.com/home.php?mod=space&uid=2&do=blog&id=28585

有了这个理解之后,我们就应该明白,图6中上面黑柱完全是附带信息,可以去掉而不影响结论。

(4)根据对论文的正确解读,这张图显示的是【PM2.5 值每增加10,死亡率增加的百分比】。因此,只要这张图的数据大于零,那么死亡率就是随PM2.5值上升而上升。这张图显示,PM2.5值每增加10,心血管病死亡率平均将上升1.3%,呼吸系统病死亡率将增加0.6%。因此,柴静说【当pm2.5值升高的时候,人群的死亡率是随之上升的】完全符合论文的数据与结论。
回复 方枪枪 2015-3-15 12:12
ImYoona: 敬礼       也许他们还有其它论文吧?我马上要出去,晚上再聊。
好,慢慢玩,我通知下红袖方粉,这个简直是粉得让人受不了那种了。
握手,敬礼。心苦了!
回复 ImYoona 2015-3-15 12:11
方枪枪: 我有点怀疑柴的图出自原作者的另一篇论文,因为这篇里找不到柴图上的那些三次函数。如果能找到作者的其它相关论文就好了,如
The acute effects of fine particl ...
敬礼   也许他们还有其它论文吧?我马上要出去,晚上再聊。
回复 方枪枪 2015-3-15 12:07
ImYoona: 将柴静图中的三个三次函数用1至5代入算了算,发现数值与图不符,所以不能简单的把这三条曲线理解成这三个三次函数的图像表示。那两者到底是什么关系呢?
以第三 ...
我有点怀疑柴的图出自原作者的另一篇论文,因为这篇里找不到柴图上的那些三次函数。如果能找到作者的其它相关论文就好了,如
The acute effects of fine particles on respiratory mortality and morbidity in Beijing, 2004-2009.
Li, Pei; Xin, Jinyuan; Wang, Yuesi; Wang, Shigong; Li, Guoxing; Pan, Xiaochuan; Liu, Zirui; Wang, Lili
Environmental Science & Pollution Research;Sep2013, Vol. 20 Issue 9, p6433
----------------------------
原文找到,没有那图。
回复 方枪枪 2015-3-15 11:57
ImYoona: 谢谢。蒙枪枪垂问,勉为其难读了读有关该图的争论。
我在手机上,晚点就看,呵呵。大家吵得乱哄哄的太没意思唉,你这一天过得好难受吧。
回复 ImYoona 2015-3-15 09:03
寒山老藤: 欣赏你严谨的探究风格。
柴静的视频从论文的角度来看应该有不少瑕疵,但从引发国人广泛和过度的重视这样的社会意义上看,是值得力挺的。 ...
谢谢。蒙枪枪垂问,勉为其难读了读有关该图的争论。
回复 寒山老藤 2015-3-15 08:47
欣赏你严谨的探究风格。
柴静的视频从论文的角度来看应该有不少瑕疵,但从引发国人广泛和过度的重视这样的社会意义上看,是值得力挺的。
回复 ImYoona 2015-3-15 01:01
将柴静图中的三个三次函数用1至5代入算了算,发现数值与图不符,所以不能简单的把这三条曲线理解成这三个三次函数的图像表示。那两者到底是什么关系呢?
以第三条曲线为例
y = 0.08x^3 - 0.84x^2 + 2.63x - 1.71
y(1) = 0.16
y(2) = 0.83
y(3) = 0.78
y(4) = 0.49
y(5) = 0.44

我有点怀疑柴的图出自原作者的另一篇论文,因为这篇里找不到柴图上的那些三次函数。如果能找到作者的其它相关论文就好了,如
The acute effects of fine particles on respiratory mortality and morbidity in Beijing, 2004-2009.
Li, Pei; Xin, Jinyuan; Wang, Yuesi; Wang, Shigong; Li, Guoxing; Pan, Xiaochuan; Liu, Zirui; Wang, Lili
Environmental Science & Pollution Research;Sep2013, Vol. 20 Issue 9, p6433

注意上文有2004年在内,所以对percent increase有两种可能的理解:
1)基数是2004年的值
以图中数据为例, v1 = 1.0045*v0, v2 = 1.008*v0 (即 v2 = 1.0035*v1), ...
2) 基数是前一年的值
以图中数据为例, v1 = 1.0045*v0, v2 = 1.008*v1 (即 v2 = 1.0125*v0), ...
岳认为是2),方好象认为是1) (待确认),我也倾向于2)(待再读原文确认)
回复 ImYoona 2015-3-14 23:15
让枪枪失望了,我真的看不明白。深感自己知识面的狭隘。特别是不用的东西忘的很快。时间序列分析理论是从来没学过,因此也不了解这些结论的意义和可靠性。

总结一下我今天的印象
1)柴静对原图的改动有问题 (与原图既然同为三次曲线,为何形状相差如此之大?)
2)方岳对纵坐标的解释可能有所不同,但我读了论文还是不很清楚它的意思
3)这种统计分析得出的结论有多大的可靠性呢?
回复 ImYoona 2015-3-14 22:59
岳东晓的(三):结论,关于PM2.5与死亡率,他说

2)柴静与原论文的区别在于,原论文使用三次曲线进行吻合,而柴静使用二次曲线;但无论根据原论文曲线,还是柴静的曲线,结论都是:PM2.5增加则死亡率增加;

后面又说

PS: 在一个网站上看到了柴静视频的大图,右边实际上有三条曲线的函数表达,可以看出,最上面那条曲线也是三次曲线(而不是我在文中说的二次曲线),但是三此项的系数较小---特此更正。

不解。前一次解释虽然勉强(为何其余两条还是三次曲线?),后一次则完全说不通了。同样是三次曲线,为何两者不同?而且相差如此之大,如果两者都是正确的,而且又基于同一假设,那这些结论就形同儿戏了。
回复 ImYoona 2015-3-14 21:41
岳东晓的(一):关于PM2.5与死亡率

1)“当PM2.5的值升高的时候,人群的死亡率是上升的。” 这个说法明显存在问题。

注意引号里的是柴静的话,所以岳东晓认为柴静的说法不对。

2)注意图中曲线Y值是死亡率每年的增加,如果曲线水平,说明死亡率在直线增长(注一),而曲线上扬,则说明死亡率在加速增长。

不同意。这图应该是死亡数,因为纵坐标上写着“1/10万人”

3)其中比较费解的是这个“of PM2.5”

这和我想的一样。

4)根据 [147楼]熊兵提供原论文的信息,我补充于下。原论文图的正确描述应该是【The inter-annual variability of the estimated percent increases in daily mortality ASSOCIATED WITH 10 ug/m^3 INCREASE of PM2.5 in recent years. 】 原论文图下的描述少了大写的部分。也就是说,原图是 PM2.5 值每增加10,死亡率增加的百分比。显然,这只是一个基于某种假设的统计分析,试图从各种因素中分离出雾霾影响的结果。

我也怀疑这是个基于假设的统计分析,但不明白这篇2013年发表的论文为何不将假设得出的结果和2005-2009年的真实数据相对照呢?特别怎么能把从一个假设得出的结论当成事实和大众宣讲呢?
回复 ImYoona 2015-3-14 21:00
翰山那里有柴静视频相当清晰的截图
http://hanshan.info/home.php?mod=space&uid=2&do=blog&id=4493
那里可以看出第一条曲线是有关循环系统的图,而且第二,第三条也是关于呼吸道系统,和非意外事故的图。很难相信她那里的第一条曲线是正确的。假如这里纵坐标的意思与原图不同的话,第一条曲线形状的确可以不同,但这样的话,为何其余两条意义类似的曲线还是和原图一模一样呢?

图的右端还有三次曲线的公式,没在论文里找到,令人费解。是不是这些作者还写过其它相关文章,或者是出自其它作者的文章?可以把数字代入验证下,但不知另一个关于R平方的公式是什么意思?

翰山还罗列了相关资料 http://hanshan.info/home.php?mod=space&uid=2&do=blog&id=4511
我猜他对这话题可能有兴趣,因为他是学气象的。

那里列的彭大维: 沈阳航空航天大学航空航天学部 副教授,“零转基因”论坛站长,反转基因也反张宏良之类骗子。
http://blog.sina.com.cn/s/profile_1534638261.html

最好有论文作者来解释下就好了。
回复 ImYoona 2015-3-14 18:23
通读了一下论文。

inter-annual variability 年际变化率
NAM:non-accidental mortality 非意外事故死亡率
RM:resptratory mortality 呼吸道疾病死亡率
CM:circulatory mortality 血液循环疾病死亡率
statistical regression equation 统计回归方程
time series analysis 时间序列分析。可惜不懂这个理论。感觉是通过现有数据来预测将来。图中也用了estimate这词,是预测的意思吗?如果是近似的意思应该用approximate吧?

The inter-annual variability of the estimated percent increases of daily mortality of PM2.5 in recent years 方舟子好象忽略了increase这词,不光是图下的说明里说percent increase,连纵坐标上也这么写着。所以不是每年的平均日死亡率,而是每年评论日死亡率的增长。

还有我不明白这里加'of PM2.5'的意思。

Fig.6 depicts the interannual variability of the mass concentration of PM2.5 and the estimated percent increase for PM 2.5 in daily mortality from 2005 to 2009. It can be seen that the PM2.5 levels generally declines in recent years in Beijing, whereas the relative risk shows different change trends. Overall, the level of the estimated percentage increase assumes an escalating tendency during the study period, in addition to having a low value in 2008 because strict atmospheric pollution control measures were implemented in Beijing-Tianjin-Hebei region before the Olympics games (Xin et al., 2010, 2012). But it bounced off the bottom and started a new uptrend after 2008. The values which show the largest effect in 2009, rose sharply again after the Beijing Olympics. Under this serious current situation, a 10\mug m-3 increase of PM2.5 corresponded to more than 1.00% increase of non-accidental mortality, respiratory mortality, and circulatory mortality.

这里说的很清楚'It can be seen that the PM2.5 levels generally declines in recent years in Beijing',的确从图上可以看出除第一年外,后面四年的PM2.5值是逐年下降的。柴静图里的'当PM2.5值升高的时候'的话说的的确不对(除非这是前提假设)。

后面说的是尽管PM值在下降,死亡率并没不断下降,而是有升有降。(注意这并不能说明PM值和死亡率没关系,最多只能说它们不成正比,具体相关性的研究大概就是时间序列分析的工作,我猜也许可以得出PM值降幅要达到什么程度,死亡率才能下降?)

percent increase的意思的确费解,这应该是个相对值,而不是绝对值,因为如果是绝对数的话,应该要在图上标明单位(如说这是每百万人口里的死亡人数)。方的理解是这是对于一个基数(但是是什么基数呢?),估计是指同一个基数,所以说死亡率和死亡率的增长几乎是一回事,就是个不同比例的问题。而岳的理解是对前一年的增长(或者说前一年是基数),也就是每年的基数不同。岳认为方说的死亡率就是死亡数的意思,这是否是方的原意呢?

总的来讲,我觉得这篇论文是用时间序列分析来得出结论的,并不是只在罗列和图示原始统计数据。也许不懂时间序列分析术语的人很难真正明白文章的意思。

facelist

您需要登录后才可以评论 登录 | 注册

 留言请遵守道德与有关法律,请勿发表与本文章无关的内容(包括告状信、上访信、广告等)。
 所有留言均为网友自行发布,仅代表网友个人意见,不代表本网观点。

关于我们| 反馈意见 | 联系我们| 招聘信息| 返回手机版| 美国中文网

©2024  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

回顶部