蜜桃成熟了能上市,临床试验 “成熟度” 度不够,P 值能让上市的价格打折

一节生姜 3742 2025-04-28 17:06:19

康方生物的PD-1/VEGF 双抗(AK112)是一款挑战K药的抗癌药,最近宣布了一项与K药“头对头”临床试验结果的更新,但是在美国的相关公司Summit,股票随之大跌36%,交易一度停盘。

究竟发生了什么事?很显然,股价下跌,是因为试验结果不及预期。根据官方的报道:

依沃西“头对头”帕博利珠单抗的随机、双盲、对照III期临床研究(AK112-303/HARMONi-2)中获得的显著阳性结果:


在ITT人群中,依沃西组和帕博利珠组的中位无进展生存期(PFS)分别为11.14个月和5.82个月,PFS HR=0.51(P<0.0001),依沃西治疗组的疾病进展/死亡风险降低49%;


在ITT人群中,在39%成熟度时进行的总生存期(OS)的期中分析(本次分析α分配值仅为0.0001)结果显示,依沃西对比帕博利珠单抗具有显著的临床生存获益,HR=0.777,降低死亡风险22.3%;

这里提到临床试验结果达到 “39% 的成熟度,这到底啥意思?

1
临床试验中的OS数据:无法100%完成的数据

临床实验中的总生存数据 OS ,是指从试验开始至某个时间内患者的生存时间或生存率。不管参试者因任何原因导致死亡,都要统计进来评估OS数据。

对于肿瘤治疗来说,OS是评估药物或治疗方案有效性的关键指标,能直接反映患者在接受治疗后的整体生存情况,是衡量治疗效果的重要依据。

很显然,评估OS的时间不能无穷长,因为时间能解决一切,也能解决一切人。肿瘤患者平均年龄60左右,若要比较30OS,不管是哪一组参试者,OS都趋近于零了。

OS也并非等同于治疗时间。随着药物的效果越来越好,患者实际治疗时间或许仅为一两年,但为全面、精准评估药物或治疗方案对患者生存的长期影响,往往需要观察其五年甚至十年的生存率。

肿瘤患者的“生”是医生和患者都希望发生的事情,但是参试者的“死”却是临床试验需要记录的结果,生和死确实都是让人纠结的事。

为了不那么残忍,临床试验的报道中会使用“生存事件”这个词,但是懂的人都懂,每出现一个“生存事件”,就意味着有一个参试者去世了。

数据充分,才会有一个明确的试验结果。所以,这就有了临床试验“成熟度”的问题。

所幸的是,因为有统计学的帮助,一个临床试验达到“成熟”,并不需要所有参试者都发生“生存事件”。

只要一定数量的参试者发生“生存事件”,能够在统计学上区分治疗组和对照组的疗效,临床试验就达到了100%成熟。

因此可以肯定,临床试验达到 “39% 的成熟度,并不是说参试者有39%已经发生“生存事件”。

到底是多少?这取决于试验的预期,如果预期需要60%的参试者发生“生存事件”才能达到统计学的显著性,那么“39%的成熟度便等同于只有24%的参试者出现“生存事件”。 (60% * 39% = 24%

写到这,不得不感叹一下:统计学真重要!

不懂统计学,你看到别人赢了彩票,便觉得自己也能赢彩票!

不懂统计学,你看到美国有一个B,便觉得美国都是傻B

不懂统计学,你也看不懂临床试验。

2
临床试验的P值,到底是0.05?还是0.0001

怎样判断统计学上是否有显著区别?这就不得不提到科研界常用的 

咱们平时说的P = 0.05,对应的是5%,直白的解读,是结论有 95% 的可能性是正确的。在科学研究里,只要 P ≤0.05,就可以认为两组数据(比如用药组和对照组)之间存在显著差异,也就认为药物是有效的。(这可能是从小便要求考试必拿100分的人难以接受的

因为这个很重要,判断临床试验是否有效,也就成了“P大的事“!

问题来了, 0.05,这是在临床试验OS数据完全成熟之后的统计学标准。在临床试验没有完全成熟之前,是否可以通过统计学的方法判断显著性?

比如康方生物这次临床试验成熟度才 39%,数据还远远不够完整。就像拼拼图,只拼了一小部分,这时候下结论很容易出错。怎么办呢?

答案是 提高P值标准!常规 P 0.05 这时候已经不够用了,必须把结论的准确性大幅提升。新闻稿里提到的 “assigned p value”(中文翻译成 “分配值不太准确,叫 “指定 P 更合适),把 P 值定到了 0.0001 以下!这意味着结论在统计学上要有 99.99% 的准确性 ,才能保证即便未来所发生的“生存事件”会影响试验结果,也不会颠覆整体的结论。

我们可以用高考打个不太恰当的比分。假设去年北大的录取分数线是700 分,如果今年高考700分,那么可能有 95% 的机会能上线。

但是,如果还没到高考,只是一个模拟考,可否判断高考分能上线呢?也不是不可以,但可能得把考分提高到 800 分。要是模拟考能考到800 分,说明你实力很强,有 99.99% 的可能性在高考中也能取得好成绩,顺利考上北大。

如果模拟考还只是700分,那么真正高考时的成绩波动,可能就上不了北大分数线了。

因为这个标准是提高了,要是表达成“这次的模拟分数线仅为800分”,是不是感觉很奇怪?

3
股票掉,是因为HR还是P值?

康方生物新闻里还有一个数据,是HR值(风险比)。目前所报道的HR 值是 0.777,意味着与对照组K药治疗相比,发生“生存事件”的风险降低了 22.3% 1 - 0.777 = 0.223 = 22.3%) 。

有人说SMMT股票掉,是因为这个HR值不够好,只有0.777。这又是一个不专业的解读。

HR值超过1肯定是不好的,那意味着治疗组比对照组有更多的折损。

但是HR值低于1值算不算好?不能只看HR值本身,还要看这个值的可行度有多少,也要看P是多少。

如果从统计上来看,虽然HR 0.77,但是波动范围可能是 0.3 -1.2,那这个HR值就是不可信的。

到底HR值是否可信,取决于在目前的成熟度下,P值是否<0.0001<>。所以,这还是P大的问题。

随着临床试验数据的完善,治疗组可能比对照组更少一个“生存事件”,也可能会更多一个“生存事件”, HR 值也就会出现波动。但如果P< 0.0001,那么这个波动区域99.99%的可能性都不会超过1,也就是说治疗组会有更好的效果。

很多人觉得SMMT  股票掉得一头雾水,可能是因为很多报道里大谈目前分配的P值是0.0001,谈得好像目前的结果已经达到了0.0001。这是被夸夸其谈的人或者人工智能带偏了。

这正如说模拟考的分数线是800分,跟模拟考考了800分是两个完全不同的概念。

我仔细看了官方的新闻,并没有说目前的p值具体是多少。但是可以推理出的是,它一定达不到0.0001的标准!如果达到了这个标准,那么统计学上就有显著性了。

P值到底是多少?未来在完整报道数据的时候,一定会出来。

在这个不确定的世界里,可以确定的事,AK112是否能挑战K药成功,一定会有一个说法。

但给出这个答案的时间不是现在。

模拟考没有达到800分,并不等于正式高考就不能考700分。

这事说清楚了吗?

(作者:张洪涛,笔名“一节生姜”,著有科普读物:《吃什么呢?——舌尖上的思考》,《如果舌尖能思考》。可以谈最前沿的医学研究,也可以讲最通俗的故事。本文仅作为医学常识性科普,不作为任何医疗建议。若有不适,请尽快就医,遵医嘱对症治疗)


上一篇:山风 I 当代书写2025艺术展(杭州站)
下一篇:展讯 I 老冯与小迪 — 冯峰 & 许延平双个展
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

返回顶部小火箭
×
×