1. P值可以指示数据与一个给定模型的不相容程度。
(P-values can indicate how incompatible the data are with a specified statistical model.)我们基于一系列的假设建立的模型称为原假设;我们同时还会建立零假设(null hypothsis),即指某种我们想要检测的效应不存在,例如两组无差,或者某个因子与结果无关。P值越小,说明数据与零假设之间越不相容。这里的不相容,可以解释为对零假设的存疑程度。
2. P值不能衡量某假设为真的概率,也不能衡量数据仅由随机因素造成的概率。(P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.)尽管研究者常常希望计算出零假设是否为真,或是算出观测结果仅由随机事件造成的概率,但P值的作用并不是这个,P值只解释数据与假设之间的关系,它并不解释假设本身。
3. 科学结论、商业决策或政策制定,不应只取决于P值是否达到了一个给定标准。(Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. )为了给某种科学主张或论断提供佐证而把数据分析或科学评估[我怀疑“还原”这个词是不是有点不准确,但我可以理解,“简化”?]简化成一种机械性的规则(例如p<><>4. 研究者需对研究进行完整的报告、保证透明度,才能做出合理的推论。(Proper inference requires full reporting and transparency. )研究者不应选择地报道P值和相关的统计分析。某项研究可能使用了好几种分析方法,而研究者只报告其中的一部分(特别是那些符合标准的),这就使得P 值难以解释。一旦研究者根据统计结果选择性地展示相应的方法,而读者对此并不知情,结果的有效性就打了折扣。研究者应该展示研究过程中检验过的假设的数量、数据收集的方法、所有使用过的统计方法和相应的P值。
5. P值或统计显著性并不能衡量效应的大小和结果的重要性。(A p-value, or statistical significance, does not measure the size of an effect or the importance of a result. )某项个结果的统计显著性并不代表其在科学、人文的或者经济上的重要性。P值小并不意味着效应更重要,P值大也不代表不重要或没有效应。无论某个效应的影响有多小,当样本量足够大或测量精度足够高时,总能得到小的P值。对于相同的效应,当测量精度不同时,得到不同的P值也会不同。
6. P值本身并不能衡量模型或假设的可信度。(By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.)研究者应该意识到,在没有一定的背景时,P值能提供的信息非常有限。接近0.05的P值只能为反驳零假设提供非常弱的证据。同样的,相对大的P值也不一定意味着证据就偏向支持零假设,还是有很多其他的假设可能导致现有的结果。