注册 登录
美国中文网首页 博客首页 美食专栏

翰山的个人空间 //www.sinovision.net/?163942 [收藏] [复制] [分享] [RSS]

x

博客栏目停服公告

因网站改版更新,从9月1日零时起美国中文网将不再保留博客栏目,请各位博主自行做好备份,由此带来的不便我们深感歉意,同时欢迎 广大网友入驻新平台!

美国中文网

2024.8.8

分享到微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

柴静是否作假?与方舟子商榷:PM2.5与死亡率

热度 7已有 7796 次阅读2015-3-17 21:01 |系统分类:科技教育| 方舟子, 死亡率 分享到微信

最近柴静的记录片《穹顶之下》着实火了一下。这个片子有点像若干年前的《河殇》,煽情有余,理性不足。那么,有人质疑其中的一些细节,也是很自然的。我看了方舟子文章有关PM2.5与死亡率的质疑,以及岳东晓等对方舟子文章的质疑(见《关于柴静:PM2.5与死亡率 资料汇总<1>),我觉得这个问题有必要澄清。为了节省篇幅,有关引文请见链接,点击可进入(原文《柴静是否作假?与方舟子商榷:PM2.5与死亡率》)。

柴静的说法,关于PM2.5与死亡率
<2>:(纪录片在12:31)这个是中科院给我们提供的测算,这个复杂图标显示的是:当PM2.5的值升高的时候人群的死亡率是随之上升的

柴静是否作假?与方舟子商榷:PM2.5与死亡率_图1-1

(图一,取自方舟子文章<3>


方舟子的《柴静〈穹顶之下〉的造假迷雾<3>质疑柴静所用图造假此引文中红色部分,因为曲线和原论文很不同,而且没有包括PM2.5的原始资料,且原论文图的PM2.5资料自2006年之后是逐年下降的,而图上发病率是上升的,很难解释当PM2.5的值升高的时候人群的死亡率是随之上升的这个结论。


正确理解这张图

正确理解这张图,我们不仅要了解这张图的各个指标,还要了解这篇柴静所引的中科院论文(《
Time-series_analysis_of_mortality_effects_from_airborne_particulate_matter_size
<4>)在干什么。知道之后,这张图就好理解了。这篇论文的要旨,是要回答这样一个问题:“PM2.5每升高10 µgm-3,,死亡率上升的%”。据说这是一个很流行的研究课题。

怎么得到呢?也许可以用实验的方式。

我 们可以建立这样一个实验室,内部的环境条件和外面某地,比如说北京,完全一样,让一群人(有统计意义的,应该是几万~几十万吧)生活在这个环境里一定时 间,比如说,五年,可以得到一个各种病的死亡率的观测值。然后,同时我们另外把同样数量的一群人(假定统计特征和前一群人一样或类似)放在另外一个实验 室,完全同等的条件,仅仅是PM2.5这个控制因子比前一个实验室高出
10 µgm-3, 同样测出各种病的死亡率。此后比较这两组实验,看看后者死亡率增加多少个%就得到了我们所要的结果。但是,这种实验室,是不可能实现的。无法把几万人关进 一个实验室里,几年。那么只有用社会做实验室。但是用社会做实验室,又无法调整其中要试验的控制因子,比如说PM2.5增加10 µgm-3。所以,这种实验无论在实验室还是用真实社会来模拟实验室都无法实现。

那么人们就想了,能不能用电脑来模拟这个实验,比如,如果有一个公式(模型),把所有初始条件输进去(PM2.5,PM10,温度,湿度等气象相关条件),一按电钮,就可以输出得到各种病的死亡率,那样就可以随意调整各个参数(控制引资),来做想做的实验了。

柴静引的这篇中科院的论文,做到就是这样的工作,我们来看:

模式建立:这篇论文首先就是获得这样一个公式(文中254-255页,公式1-4)。通过统计方法,确切地说,用多元回归方法来筛选因子,建立了一个模型,表达
M2.5,PM10,PM2.5-10等控制因子及一些可能的其他相关因子,如温度,湿度等气象要素,与疾病死亡率之间的关系。一旦有了这个方程(模型),就可以输入任何有意义的数据(假定新数据与原来得到模型的数据的分布规律是相同的)去计算疾病死亡率。也可以调整其中个别数据(控制因子),比如PM2.5增加10 µgm-3,做实验。

数据获取:这个数值实验(或说这篇论文)的资料(文中254页左下角)取于1/2005-12/2009,北京地区北部三环四环之间区域,从气象部门取得包括PM2.5,PM10,PM2.5-10等每天的气象资料;同时从中国疾病控制预防中心和北大三院得到各种相应疾病的每天的死亡率。
对于这1800多天的资料应用建立的模式进行回归分析,得到上面的回归方程,其结果显示,PM2.5-10被排除在外,它与各种疾病的死亡率不相关,而分别得到了PM2.5和PM10与疾病死亡率之间的回归方程,即文中254-255页,公式1-4

数值实验:然后的实验就是给定初始条件,比如说PM2.5及各种气象条件,首先算出疾病死亡率;之后,PM2.5增加
10 µgm-3同时其他条件不变),再算出新的疾病死亡率。利用这两个比率,就可以得到相应死亡率上升的%。这就是柴静介绍的那张图的结果(文中259页右上角)。

柴静是否作假?与方舟子商榷:PM2.5与死亡率_图1-2

(图二,取自论文<4>


那么那张图为什么没有标明其曲线是PM2.5增加10 µgm-3的条件下的各疾病死亡率呢?因为论文在资料分析部分已经陈述过了文中255页左下角:The results is expressed in terms of the percentage increase in daily non-accidental mortality, respiratory mortality, and circulatory mortality for a 10 µgm-3 and 10 point increment of pollutant concentrations, and respective 95% confidence interval (95% CI).  (实验结果表示为:由于污染浓度增加10 µgm-3或10点,在95%信心区域,三种疾病日死亡率增加的% --- 注:污染浓度即指PM2.5,PM10等)。

而在后面的作图中,文章作者假定这个红色的前提条件为已知,所以在介绍图时,就省略了这个条件陈述。当然了,柴静和方舟子不知道,这就造成了以后的许多误解,以及质疑和解疑,包括这篇文章。


具体解析这张图

第一,如上所说图的纵坐标是:
由于PM2.5(或PM10)增加10 µgm-3,在95%信心区域,三种疾病日死亡率增加的%。所以,开始方舟子理解曲线为死亡率本身,显然是有误。岳东晓的纠正是正确的(《方舟子妄批柴静捏造数据的错误<5>):不是死亡率,而是死亡率的增加%。而后岳东晓又指出这个增加率的条件是“ PM2.5 值每增加10,死亡率增加的百分比”的结论也是正确的(《详解方舟子没看懂的“柴静曲线"<6>),当然他的分析过程很曲折,后来又从abstract中拿到一段话来佐证(《柴静作假可能性分析<7>,其实文章中叙述的清清楚楚,他也没有读到。至于岳东晓的许多其他的结论,比如什么线性增加等,都是建立在错误理解之上,不值得一驳。

第二,方舟子对岳东晓的反驳,说:“
该纵坐标是【每天】死亡率(daily mortality)的增加,这个增加是与基数相比的,是以此来表示死亡率的变化。
(《
驳斥科学网《方舟子妄批柴静捏造数据的错误》<8>)这个结论一半正确,但是他的解释表明,显然他没有理解这条曲线的意义。他说的基数,好像有一个恒定的基数,对各年都相同,所以:”与基数相比,2007年北京循环系统疾病每日死亡率增加2%,而 2008年增加1.5%,那么2008年与2007年相比,死亡率实际上是下降的,绝非像岳东晓理解的那样每年死亡率都在直线上升,没过几年北京人都死绝 了(方舟子,同前文)。“方舟子的最后一句话对岳东晓的批驳是正确的,但是对基数理解不对。

那么这个基数是什么呢?我们来具体解释一下。比如2007年,如论文,输入论文给出的的PM2.5年平均值为78
µgm-3,可以对应得到一个值,比如说,2007年北京循环系统疾病每日死亡率,假设为0.05%;那么,把PM2.5增加10 µgm-3(其他条件不变),即达到88 µgm-3,再算一次其死亡率,假定得到的是0.0501%,增加了0.0001%,相对增加值为0.0001%/0.05%=2%,这个数值就显示在图(Fig6)上的一个点。同理,2008年,论文的PM2.5年平均值为69 µgm-3,可以对应得到一个,假设为0.051%(随机选的);那么,把PM2.5增加10 µgm-3(其他条件不变)达到79 µgm-3,再算一次其死亡率,假定得到的是0.05175%,增加了0.000075%,相对增加值为0.000075%/0.05%=1.5%,显然无法得出方舟子的2008年与2007年相比,死亡率实际上是下降的结论,因为他的基数的理解不对。所谓基数,就是用实际观测值输入到模式中,计算得到的死亡率值,上面的例子中,2007是0.05%,2008年是0.051%(这里都是假设的)

第三,关于图(Fig.6)中的PM2.5值。如第二所说,这是模式计算疾病死亡率的初始值,非常重要,其增加10 µgm-3计算都依赖于此。所以,岳东晓说:”至于原图中最上面的黑色柱子只是记载PM值的参考信息,完全可以去掉,对于当pm2.5值升高,人群的死亡率是随之上升的】的结论没有任何影响。“(《柴静作假可能性分析<7>),显然他不理解这个图,直观的想,没有价值的数值,可能出现在中科院的论文上吗?

第四,柴静是否作假,基于方舟子的质疑。这个由来于柴静介绍的图(见上图一)与中科院论文原图不符合,1. 最上面的曲线(
北京循环系统疾病每日死亡率) 被平滑了,由原来的起伏曲线,变成了一致上升曲线;2. 去掉了PM2.5观测值,即模式的原始输入值。我猜(这是一个判断,不是事实举证),柴静和方舟子一样,可能把疾病死亡率增加曲线理解成了死亡率曲线,于 是把图修成上升态,比较容易说服人。事实上,在我没有注意和看论文之前,仅凭看纪录片,从柴静所述:”当PM2.5的值升高的时候人群的死亡率是随之上升的“, 得到的印象也是:这个图表达的是PM2.5在逐年升高,而人群死亡率也随之升高(如图中曲线)。那么去掉PM2.5(并不是逐年升高的,而是从2006年 就开始下降的),大概免去了许多观众心中的疑惑(也许包括她自己)。而把最上面的曲线平滑,有雕琢的痕迹,但是在技术上也不是不可行(造假)。我们来看 看,这条拟合曲线,柴静是怎么做出来的。

首先,我们注意到,尽管这篇文章模式的建立,是收集了5年的日变化资料,包括PM2.5等污染及 其它气象资料,和疾病死亡率资料,即用大约1800个资料建立了统计模式;而用这个模式做实验却仅仅用了年平均的5个PM2.5输入值,其它值都是利用这 5个点得到的拟合值。这是为什么?
理 论上,用这五年的资料作为样本,如果同样应用回到这些样本资料,应该说一点问题也没有,都不用假定他们的分布律相同,本来就是同一资料。仅用五个点计算, 也不应该是因为懒惰或省事,因为这计算很简单很快,我猜,很可能用全部资料甚或部分资料,即用日资料计算,效果不好,结果很分散,无法写出论文。而用年平 均资料来做,那五个点的结果很好,其他的值就用内插拟合就行了,是一个很漂亮的结果(这个是对那篇论文的质疑,我们不在这里讨论,将另文再谈)。那么,至于是用三阶曲线去拟合,还是用二阶甚或直线去拟合,应该不是大问题。

所 谓曲线拟合,就是根据有限的离散的数据,画出一条连续的曲线,以补充数据缺乏的位置。那么拟合方法一般有:线性拟合(直线),非线性拟合(曲线),我们用 Excel做图,可以自动选择做出拟合曲线。还有一种是最小二乘法逼近,通常使用直线来做。这里,显然,柴静用了最小二乘法,但不是用通常的直线逼近而是 曲线逼近,实在是别具匠心。所以,这个改动是不是造假,我们其不做判断;但这条曲线的做出,的确是煞费心机,却是显而易见的。也许,这条曲线根本不是来自 于柴静及她的团队,而是来自中科院的科学家。那么,大概以为这样演示,是合理的,可以达到了表达包括渲染的目的。(这个是否合理,我们另文再谈

顺便说一下,岳东晓以为这个是二次拟合还是三次拟合,这都不是重点。重点是,这是一个曲线拟合外加最小二乘法。显然岳东晓不知道或者没有想到还有一个最小二乘法拟合。(
岳:我最初以为是二次拟合曲线,依据是(1)曲线的形状像二次;(2)如果是三次,则能够完全fit四个点,但柴静的图没有。后来我发现看到柴静视频上实际上列出了这条曲线的系数,其实这也是一条三次曲线,(《柴静作假可能性分析<7>

第五,柴静是否作假,基于陈述:当PM2.5的值升高的时候人群的死亡率是随之上升的这句陈述是不成立的,超出了原论文的结论。原论文说的是:

1. 在统计意义上,当PM2.5
10 µgm-3时,人群的疾病死亡率是上升的。在统计意义上的上升,并非表明当PM2.5的值升高的时候人群的死亡率是随之上升的。 观测结果很可能在很多情况下是相反的。即:PM2.5上升,死亡率下降;或者相反,PM2.5下降,死亡率仍旧上升,比如2006年到2009年,论文观 测资料表面PM2.5是下降的,但是实际的疾病死亡率是下降的吗?文章没给,不排除是上升的(这个很容易查资料得到结果)。就好比说,东北人比南方人高, 这是统计意义上的一般来说,但是不能说每一个东北人都比南方人高,不能说赵本山比姚明高。

2. 这个结论是个实验结果(数值试验),并非实际情况。柴静告诉观众和观众理解的却以为是事实。这是一个很大的误导。事实如何,直接用论文中拿到的PM2.5 每天的观测资料和疾病死亡率资料这两个时间序列比较分析,可以立刻得出结论。当然,逐日比较,结果很可能是凌乱的,有天上升,有天下降。经过平滑之后(如 月平均,年平均),我猜结果也必定不会有
当PM2.5的值升高的时候人群的死亡率是随之上升的可能不同时间段不一样。

如果柴静不懂这个差别,那么就是一个煽情之作;如果她懂得这个差别,那么就有造假推销之嫌。

结论

第一,方舟子对图的初始理解有误,不是死亡率图,而是死亡率增长。之后承认是增长,但仍旧没有正确理解,单一基数论是错误的;

第二,岳东晓质疑方舟子,指出:”
PM2.5 值每增加10,死亡率增加的百分比“显 示对图的解读是正确的。但是对图的产生和论文原文还是没有很好的理解,于是就认为,原图上方的PM2.5值是可有可无,以及得到死亡率是线性增加的。此 外,岳东晓对曲线拟合的了解不全面,不知道柴静图用的是最小二乘法拟合,如果不是,那么柴静就是在作假,因为曲线已经脱离了原始数值。

第三,柴静要宣扬:”
当PM2.5的值升高的时候人群的死亡率是随之上升的“这 样一个观点。他自己对这张图理解多少,难说,但是修过的图以及她的引导,把观众和读者都引向她所期望的方向。从技术上,很难判定作假;但是的确隐去了一些 重要数据(PM2.5值,呈下降趋势)而改动了其它一些数据(图中曲线)。而柴静把这个统计意义上的结论用于一般陈述句,把数值试验结果作为事实介绍,误 导观众,是不是造假,可以请方舟子继续追踪。

第四,此论文在科学上:
当PM2.5的值升高的时候人群的死亡率是随之上升的“是否成立,其统计意义说明什么,需要另文再谈。


参考文献(这些链接已经在文章中出现,现集中于此):
原文:柴静是否作假?与方舟子商榷:PM2.5与死亡率
<1>关于柴静:PM2.5与死亡率 资料汇总
<2>柴静的说法,关于PM2.5与死亡率
<3>方舟子的《柴静〈穹顶之下〉的造假迷雾
<4>中科院论文(《Time-series_analysis_of_mortality_effects_from_airborne_particulate_matter_size
<5>岳东晓的(《方舟子妄批柴静捏造数据的错误》)
<6>岳东晓的(《详解方舟子没看懂的“柴静曲线"》)
<7>岳东晓(《柴静作假可能性分析》)
<8>方舟子(《驳斥科学网《方舟子妄批柴静捏造数据的错误》》)

免责声明:本文中使用的图片均由博主自行发布,与本网无关,如有侵权,请联系博主进行删除。







鲜花

握手
2

雷人

路过
2

鸡蛋

刚表态过的朋友 (4 人)

发表评论 评论 (3 个评论)

回复 今又是 2015-3-30 10:19
问好! 这种事,难说。问题关键在不同手段和目的下的不同行走。按理说,人文主义或精神类的讲述和科学依据的讨论,其方向和目的应该是等同的,或是相近的。这里分了类。就说不清楚了。
回复 世家金粉 2015-3-19 01:28
谢谢你通知!信息量很大啊,需要有时间的时候好好拜读。

好似最近对柴静的“杰作”, 争论的不亦乐乎
还没时间细看,但总的感觉是,太多的讨论都是
都是根据相关性下自己的结论,并不是根据科学的因果性

相关性只能说明可能,科学的因果性才是必然

所以,不懂很多的人在吵什么
回复 mgzww999 2015-3-18 21:52
哪里可以读到中科院文章的全文。我个人感觉这篇文章对确定雾霾对死亡率的影响没有任何科学价值,所以我想看看原文,以确定我的感觉是否有道理。我的理解是:这篇文章的核心是建立了一个死亡率和环境之间关系的公式,雾霾指数是公式当中的一个变量,雾霾指数为零时就是没有雾霾时的死亡基数,然后把不为零的雾霾指数输入进去,这样算出来的新的死亡率和基数死亡率的变化,就是雾霾对死亡率的影响。最大的两个问题是:1. 现实中雾霾永远不是零,那么这个雾霾为零的死亡率基数是怎么算出来的?2. 雾霾和死亡率之间的关系是如何得到的?科学可靠的方法应该是获取不同雾霾指数时的死亡率数据,然后进行拟合,但是这里需要的一个重要的条件是其它因素不变,这在现实中是不可能的。

他们即拥有死亡率的历史数据,也拥有雾霾指数的历史数据,为什么不制作一个二者之间关系的简单图表:横轴为月雾霾指数,竖立轴为死亡率。简单明了,其它外界条件可能对二者关联系数产生影响,但是由于数值相同的雾霾指数可能会随机的分布在不同的时间里,但是其它条件的变化可能已经被平均掉了,次其它条件对死亡率的影响只是一个基本不变的本底。

由于雾霾对人体健康的影响还有一个累计效应,而且累计效应可能更重要。某一年的雾霾指数较前一年下降了,但是累计的雾霾指数乘以时间永远是随着时间增加的,所以死亡率逐年增加也是可能的。比如2007年雾霾指数较高,2008年雾霾指数较低,但是2008年的死亡率仍然可能高于2007年,因为2008年雾霾指数虽然低,但是人们累计吸入的雾霾还是增加了。方舟子对柴静的质疑根本就忽略了这一点。

仅仅就对图的解释来看,方舟子的错误是本质性的,岳东晓的错误是枝节的。方舟子没有弄清楚图的意义,马上就调出来指责柴静造假,并就此得出结论说整个节目都失去了可信性,这对一个标榜自己科学严谨的人是非常丢人的事情。

柴静制作的节目不是科学论文,评价它的影响也不在她引用的数据是否准确,它的价值在于引起大众对雾霾和环境问题的关心,在于揭露了政府片面发展经济、没有有效的环境保护的法律造成的对环境的破坏,在于揭露了利益集团通过破坏环境而获取自己的利益。它在细节上的错误和这个主要贡献相比都是微不足道的。对柴静个人进行攻击则是一种下流的手段。遗憾的是,方舟子此次也加入了这个下流的队伍,他拿那个小熊说事,进而说柴静造假,表现得非常无耻。

facelist

您需要登录后才可以评论 登录 | 注册

 留言请遵守道德与有关法律,请勿发表与本文章无关的内容(包括告状信、上访信、广告等)。
 所有留言均为网友自行发布,仅代表网友个人意见,不代表本网观点。

关于我们| 反馈意见 | 联系我们| 招聘信息| 返回手机版| 美国中文网

©2024  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

回顶部