仿制药生物等效性计算问题,前FDA定量药理学审评部部长王亚宁博士权威解读!

赛柏蓝

3周前

判断生物等效是否成功的关键是90%置信区间是否落在80%-125%范围内,与之相对应的T/R比值的点估计值是由模型计算所得,T列和R列提供的几何平均数作为额外信息不会影响对生物等效结果的判断。

图片编者按:本文来自药时代赛柏蓝授权转载,编辑凯西

最近一段时间,国产仿制药成为业内专业人士及普通民众关注的焦点。就相关问题,媒体上很多文章提出了自己的看法和建议。药时代也非常关注,专门采访了王亚宁博士,请他就生物等效性结果计算相关问题分享自己的看法和宝贵经验。

图片

王博士于2003年加入美国食品药品监督管理局(FDA),在那里工作了18年,从审评员、高级审评员、团队负责人、科学副部长、代理部长,一直做到临床药理审评室定量药理学审评部部长,直至2021年9月离开FDA。在此期间,王博士负责所有疾病领域的定量药理学审评、研究项目和政策制定,并在多个重大疾病新药批准的决策中起到关键性作用。在FDA期间,王博士参与制定多项指南和法规,获得包括FDA最高奖项(Award of Merit)和杰出服务奖在内的多项荣誉。王博士也是FDA最新群体生物等效性指南中统计分析方法理论和实例的主要撰写人(https://www.accessdata.fda.gov/drugsatfda_docs/psg/Budesonide_Inhalation_Sus_20929_RC_09-12.pdf),新方法对FDA在该领域的历史方法进行了显著的改进,结束了很多仿制药企业由于旧指南中历史方法晦涩难懂而反复咨询FDA后依然经常出错的局面。王博士作为FDA内部专家参与多个复杂制剂的仿制药指南标准的制定,并多次荣获FDA各种奖项。

药时代:有文章质疑通过一致性评价信息公开的数据存在统计学错误,您对这个问题有什么看法?

王亚宁博士:显然文章作者不具有专业背景,不了解生物等效性数据是如何计算的,才会把常见的数据呈现方式认为是统计学错误。

生物等效性试验通过比较受试制剂(T)和参比制剂(R)的Cmax和AUC 差异是否在可接受范围内,评价化学仿制药口服固体制剂预期临床疗效和安全性。


其中,Cmax是最大血药浓度,表征药物在人体内的吸收后达到的最高浓度,AUC是药物浓度-时间曲线下面积,表征药物在人体内的吸收程度。受试制剂(T)和参比制剂(R)的Cmax和AUC差异采用T和R几何均值比值及其90%置信区间表示, 计算过程需要综合试验过程中的周期、序列等因素,采用指南推荐的线性混合效应模型进行。受试制剂(T)和参比制剂(R)的Cmax、AUC几何均值比值的90%置信区间如均落在 [80.00%,125.00%]内,则表明受试制剂和参比制剂具有生物等效性,二者预期临床疗效和安全性相似。

就拿最常见的双交叉生物等效试验设计为例。

理想状态下,所有受试者都应该既要吃仿制药也要吃参照药,通常是一半受试者先吃仿制药后吃参照药(序列TR),中间还有洗脱期,另一半受试者反过来,先吃参照药后吃仿制药(序列RT)。如果样本量是30人(15人分配到序列TR,另外15人分配到序列RT)而且所有人都顺利完成试验得到数据,那么应该有30对数据,或者60个数据。如果是这样的完整数据,那么两个产品的几何平均数相除和用严格的生物等效统计分析方法得到的两种产品的比值是一致的。大家可能觉得生物等效统计分析方法很简单,平时听到的就是80%-125%,只要两个产品比较后90%置信区间落在这个范围内就算生物等效,否则就说明两个产品不等效。

其实生物等效的统计分析方法非常复杂。

这个方法的发明人是美国FDA的一位资深统计审评员Donald Schuirmann (Schuirmann DJ. A comparison of the two one-sided tests procedure and the power approach for assessing the equivalence of average bioavailability. J Pharmacokinet Biopharm. 1987 Dec;15(6):657-80. doi: 10.1007/BF01068419. PMID: 3450848.),他对各种生物等效的统计方法贡献极大,是这个领域的绝对专家,除了我们上面提到的这个使用最广泛的平均生物等效方法(average bioequivalence, ABE),用于高变异仿制药的另一种生物等效的统计方法,参照药调整的平均生物等效方法(reference-scaled average bioequivalence, RSABE),也是他开发出来的。还有更复杂的群体生物等效方法(population bioequivalence, PBE)和个体生物等效方法(individual bioequivalence, IBE)都有他的杰出贡献。我跟他在FDA就生物等效的各种方法进行过非常深入的讨论。

药时代:为什么说生物等效的统计分析方法非常复杂?

王亚宁博士:具体来说,生物等效性试验中的受试者通常需在不同周期、按照不同序列、交叉服用仿制药和参照药,因此计算时需对固定效应和随机效应进行校正。仿制药和参照药的几何平均数直接相除得到的是描述性结果,不能用于统计推断。T/R比值的90%置信区间是采用模型的方式计算所得。为了展示更全面的数据,T列、R列也可以包括各组对应的几何平均数。当数据中存在缺失或者不平衡情况时,模型计算所得T/R几何均值比与T列、R列相除所得比值存在差别是正常的。

药时代:那您能再具体说一下缺失或不平衡的情形吗?

王亚宁博士:在实际临床试验中,有时候不是所有的受试者都能按计划完成整个试验得到完整的数据,有些受试者可能吃完了仿制药或者参照药就因为各种原因退出试验了(脱落),结果这些受试者就只有一个产品的数据,而不是完整的一对数据。在这种情况下,就会出现简单用两组的两个几何平均数相除,得到的数值跟用正规统计分析方法得到的比值是不一样的。另外一种情况是虽然试验设计阶段计划分配到两个不同序列的受试者人数是相同的,但是由于上述的脱落或者其他原因导致试验结束时分配到不同序列的受试者人数不一样(不平衡)也会造成两组的几何平均数相除得不到统计分析方法的比值。

如果想避免这样的不一致,可以在T列、R列报告两组校正后的几何平均数,也就是模型在校正了试验因素(比如周期,序列)后计算出的几何平均数,而不是原始的每个用药组的简单几何平均数,那样就和模型计算的比值完全一致了。我可以给大家一个案例,有兴趣的朋友可以自己去分析一下这套数据。如果对开源软件R比较熟悉的可以按照数据后面的程序代码进行验证。


这个案例中总共有36位受试者,数据中id是受试者编号,per是服药周期(period),seq是服药序列(sequence),trt是不同的制剂或者药物(treatment),一半受试者分配到TR序列,另一半受试者分配到RT序列,其中受试者16和24号有数据缺失,16号受试者只有参照药(trt=0)的数据,没有仿制药(trt=1)的数据,而24号受试者只有仿制药(trt=1)的数据,没有参照药(trt=0)的数据,其余34位受试者都有完整的数据。最后的统计分析结果显示生物等效通过,仿制药相对于参照药的比值(T/R Ratio)点估计为1.0061871(100.61871%),90%置信区间为(0.9315578, 1.0867951)或者(93.15578%, 108.67951%)。而用每个用药组各自的几何平均数相除(1.121357/1.191814)得到的比值为0.9408825(94.08825%)。但是用校正过的几何平均数相除(1.101431/1.094658),得到的比值就是1.006187(100.6187%)。大家也可以将有缺失数据的受试者16号和24号去掉,只保留另外34位受试者的完整数据,重新分析会发现在没有缺失数据的情况下,两组的几何平均数相除的比值与统计分析方法的比值完全一致。这里的34位受试者一半(n=17)被分配到TR序列,另一半(n=17)被分配到RT序列,属于完全平衡的数据。如果将TR或者RT序列中删去一名受试者产生出不平衡的数据(一组17人,另一组16人),重新分析会发现两组的几何平均数相除的比值与统计分析方法的比值是不一致的。当然也可以有既不平衡又有缺失数据的情况,这种情形下两组的几何平均数相除的比值与统计分析方法的比值也是不一致的。上述四种情况基本可以覆盖所有的双交叉生物等效试验的可能结果。

总而言之,判断生物等效是否成功的关键是90%置信区间是否落在80%-125%范围内,与之相对应的T/R比值的点估计值是由模型计算所得,T列和R列提供的几何平均数作为额外信息不会影响对生物等效结果的判断。

图片

library(nlme)
library(dplyr)
fname <- ("C:/temp/bedata.csv")
data<-read.table(fname, skip=0,header=T, sep=",",row.names=NULL)
data$dv=log(data$AUC)
#BE statistical analysis
mylme=lme(dv~trt+seq+factor(per), data=data, random=~1|id)
ci = intervals(mylme, 0.90, which="fixed") # 90% CI of log scale difference
exp(ci$fixed["trt",]) # 90% CI of Geometric Mean Ratio
#lower est.     upper
#0.9315578 1.0061871 1.0867951
#simple calculation of geometric mean in each treatment group
dvsum<-data%>%group_by(trt)%>%summarise(mean=mean(dv),n=length(dv))
dvsum$gmean=exp(dvsum$mean)
dvsum$gmean[2]/dvsum$gmean[1]
#0.9408825
library(lsmeans)
lsm=data.frame(lsmeans(mylme,"trt"))
lsm$gm=exp(lsm$lsmean)
exp(lsm$lsmean[2])/exp(lsm$lsmean[1])
#1.006187 # ratio of two least square geometric means is identical to BE analysis" result

以上就是王亚宁博士就朋友们提出的一点建议和一个问题进行的解读,希望对大家有一点帮助,我们将继续关注,及时报道。

END

内容沟通:郑瑶(13810174402)

左下角「关注账号」,右下角「在看」防止失联

判断生物等效是否成功的关键是90%置信区间是否落在80%-125%范围内,与之相对应的T/R比值的点估计值是由模型计算所得,T列和R列提供的几何平均数作为额外信息不会影响对生物等效结果的判断。

图片编者按:本文来自药时代赛柏蓝授权转载,编辑凯西

最近一段时间,国产仿制药成为业内专业人士及普通民众关注的焦点。就相关问题,媒体上很多文章提出了自己的看法和建议。药时代也非常关注,专门采访了王亚宁博士,请他就生物等效性结果计算相关问题分享自己的看法和宝贵经验。

图片

王博士于2003年加入美国食品药品监督管理局(FDA),在那里工作了18年,从审评员、高级审评员、团队负责人、科学副部长、代理部长,一直做到临床药理审评室定量药理学审评部部长,直至2021年9月离开FDA。在此期间,王博士负责所有疾病领域的定量药理学审评、研究项目和政策制定,并在多个重大疾病新药批准的决策中起到关键性作用。在FDA期间,王博士参与制定多项指南和法规,获得包括FDA最高奖项(Award of Merit)和杰出服务奖在内的多项荣誉。王博士也是FDA最新群体生物等效性指南中统计分析方法理论和实例的主要撰写人(https://www.accessdata.fda.gov/drugsatfda_docs/psg/Budesonide_Inhalation_Sus_20929_RC_09-12.pdf),新方法对FDA在该领域的历史方法进行了显著的改进,结束了很多仿制药企业由于旧指南中历史方法晦涩难懂而反复咨询FDA后依然经常出错的局面。王博士作为FDA内部专家参与多个复杂制剂的仿制药指南标准的制定,并多次荣获FDA各种奖项。

药时代:有文章质疑通过一致性评价信息公开的数据存在统计学错误,您对这个问题有什么看法?

王亚宁博士:显然文章作者不具有专业背景,不了解生物等效性数据是如何计算的,才会把常见的数据呈现方式认为是统计学错误。

生物等效性试验通过比较受试制剂(T)和参比制剂(R)的Cmax和AUC 差异是否在可接受范围内,评价化学仿制药口服固体制剂预期临床疗效和安全性。


其中,Cmax是最大血药浓度,表征药物在人体内的吸收后达到的最高浓度,AUC是药物浓度-时间曲线下面积,表征药物在人体内的吸收程度。受试制剂(T)和参比制剂(R)的Cmax和AUC差异采用T和R几何均值比值及其90%置信区间表示, 计算过程需要综合试验过程中的周期、序列等因素,采用指南推荐的线性混合效应模型进行。受试制剂(T)和参比制剂(R)的Cmax、AUC几何均值比值的90%置信区间如均落在 [80.00%,125.00%]内,则表明受试制剂和参比制剂具有生物等效性,二者预期临床疗效和安全性相似。

就拿最常见的双交叉生物等效试验设计为例。

理想状态下,所有受试者都应该既要吃仿制药也要吃参照药,通常是一半受试者先吃仿制药后吃参照药(序列TR),中间还有洗脱期,另一半受试者反过来,先吃参照药后吃仿制药(序列RT)。如果样本量是30人(15人分配到序列TR,另外15人分配到序列RT)而且所有人都顺利完成试验得到数据,那么应该有30对数据,或者60个数据。如果是这样的完整数据,那么两个产品的几何平均数相除和用严格的生物等效统计分析方法得到的两种产品的比值是一致的。大家可能觉得生物等效统计分析方法很简单,平时听到的就是80%-125%,只要两个产品比较后90%置信区间落在这个范围内就算生物等效,否则就说明两个产品不等效。

其实生物等效的统计分析方法非常复杂。

这个方法的发明人是美国FDA的一位资深统计审评员Donald Schuirmann (Schuirmann DJ. A comparison of the two one-sided tests procedure and the power approach for assessing the equivalence of average bioavailability. J Pharmacokinet Biopharm. 1987 Dec;15(6):657-80. doi: 10.1007/BF01068419. PMID: 3450848.),他对各种生物等效的统计方法贡献极大,是这个领域的绝对专家,除了我们上面提到的这个使用最广泛的平均生物等效方法(average bioequivalence, ABE),用于高变异仿制药的另一种生物等效的统计方法,参照药调整的平均生物等效方法(reference-scaled average bioequivalence, RSABE),也是他开发出来的。还有更复杂的群体生物等效方法(population bioequivalence, PBE)和个体生物等效方法(individual bioequivalence, IBE)都有他的杰出贡献。我跟他在FDA就生物等效的各种方法进行过非常深入的讨论。

药时代:为什么说生物等效的统计分析方法非常复杂?

王亚宁博士:具体来说,生物等效性试验中的受试者通常需在不同周期、按照不同序列、交叉服用仿制药和参照药,因此计算时需对固定效应和随机效应进行校正。仿制药和参照药的几何平均数直接相除得到的是描述性结果,不能用于统计推断。T/R比值的90%置信区间是采用模型的方式计算所得。为了展示更全面的数据,T列、R列也可以包括各组对应的几何平均数。当数据中存在缺失或者不平衡情况时,模型计算所得T/R几何均值比与T列、R列相除所得比值存在差别是正常的。

药时代:那您能再具体说一下缺失或不平衡的情形吗?

王亚宁博士:在实际临床试验中,有时候不是所有的受试者都能按计划完成整个试验得到完整的数据,有些受试者可能吃完了仿制药或者参照药就因为各种原因退出试验了(脱落),结果这些受试者就只有一个产品的数据,而不是完整的一对数据。在这种情况下,就会出现简单用两组的两个几何平均数相除,得到的数值跟用正规统计分析方法得到的比值是不一样的。另外一种情况是虽然试验设计阶段计划分配到两个不同序列的受试者人数是相同的,但是由于上述的脱落或者其他原因导致试验结束时分配到不同序列的受试者人数不一样(不平衡)也会造成两组的几何平均数相除得不到统计分析方法的比值。

如果想避免这样的不一致,可以在T列、R列报告两组校正后的几何平均数,也就是模型在校正了试验因素(比如周期,序列)后计算出的几何平均数,而不是原始的每个用药组的简单几何平均数,那样就和模型计算的比值完全一致了。我可以给大家一个案例,有兴趣的朋友可以自己去分析一下这套数据。如果对开源软件R比较熟悉的可以按照数据后面的程序代码进行验证。


这个案例中总共有36位受试者,数据中id是受试者编号,per是服药周期(period),seq是服药序列(sequence),trt是不同的制剂或者药物(treatment),一半受试者分配到TR序列,另一半受试者分配到RT序列,其中受试者16和24号有数据缺失,16号受试者只有参照药(trt=0)的数据,没有仿制药(trt=1)的数据,而24号受试者只有仿制药(trt=1)的数据,没有参照药(trt=0)的数据,其余34位受试者都有完整的数据。最后的统计分析结果显示生物等效通过,仿制药相对于参照药的比值(T/R Ratio)点估计为1.0061871(100.61871%),90%置信区间为(0.9315578, 1.0867951)或者(93.15578%, 108.67951%)。而用每个用药组各自的几何平均数相除(1.121357/1.191814)得到的比值为0.9408825(94.08825%)。但是用校正过的几何平均数相除(1.101431/1.094658),得到的比值就是1.006187(100.6187%)。大家也可以将有缺失数据的受试者16号和24号去掉,只保留另外34位受试者的完整数据,重新分析会发现在没有缺失数据的情况下,两组的几何平均数相除的比值与统计分析方法的比值完全一致。这里的34位受试者一半(n=17)被分配到TR序列,另一半(n=17)被分配到RT序列,属于完全平衡的数据。如果将TR或者RT序列中删去一名受试者产生出不平衡的数据(一组17人,另一组16人),重新分析会发现两组的几何平均数相除的比值与统计分析方法的比值是不一致的。当然也可以有既不平衡又有缺失数据的情况,这种情形下两组的几何平均数相除的比值与统计分析方法的比值也是不一致的。上述四种情况基本可以覆盖所有的双交叉生物等效试验的可能结果。

总而言之,判断生物等效是否成功的关键是90%置信区间是否落在80%-125%范围内,与之相对应的T/R比值的点估计值是由模型计算所得,T列和R列提供的几何平均数作为额外信息不会影响对生物等效结果的判断。

图片

library(nlme)
library(dplyr)
fname <- ("C:/temp/bedata.csv")
data<-read.table(fname, skip=0,header=T, sep=",",row.names=NULL)
data$dv=log(data$AUC)
#BE statistical analysis
mylme=lme(dv~trt+seq+factor(per), data=data, random=~1|id)
ci = intervals(mylme, 0.90, which="fixed") # 90% CI of log scale difference
exp(ci$fixed["trt",]) # 90% CI of Geometric Mean Ratio
#lower est.     upper
#0.9315578 1.0061871 1.0867951
#simple calculation of geometric mean in each treatment group
dvsum<-data%>%group_by(trt)%>%summarise(mean=mean(dv),n=length(dv))
dvsum$gmean=exp(dvsum$mean)
dvsum$gmean[2]/dvsum$gmean[1]
#0.9408825
library(lsmeans)
lsm=data.frame(lsmeans(mylme,"trt"))
lsm$gm=exp(lsm$lsmean)
exp(lsm$lsmean[2])/exp(lsm$lsmean[1])
#1.006187 # ratio of two least square geometric means is identical to BE analysis" result

以上就是王亚宁博士就朋友们提出的一点建议和一个问题进行的解读,希望对大家有一点帮助,我们将继续关注,及时报道。

END

内容沟通:郑瑶(13810174402)

左下角「关注账号」,右下角「在看」防止失联

展开
打开“财经头条”阅读更多精彩资讯
APP内打开