药物临床试验机构百问百答-69(安控新能)
临床试验统计原则
5 数据分析的考虑
5.1 分析的预先确定
当设计一个临床试验时,数据的最终统计分析的主要特征应该在方案的统计章节进行描述。该章节应包括所提出的主要指标确证性分析的所有主要特征以及解决预期分析问题的方法。对于探索性试验,该章节可描述更一般性的原则和方向。
统计分析计划(见词汇表)可作为独立文件撰写,并在最终确定方案之后完成。该文件可以更加技术性地和详细地阐述方案所述的主要特征(见第 7.1章节)。该计划可包括对主要和次要指标以及其他数据进行统计分析的详细程序。统计分析计划应经审核或根据数据盲态审核(见第 7.1 章节定义)结果更新后,在揭盲前最终确定。最终统计分析计划的确定及随后的揭盲应保留正式记录。
如果盲态审核建议修改方案中所述的主要特征,应记录在修订方案中。否则,根据盲态审核建议考虑更新统计分析计划就足够了。只有方案(包括修订方案)中预设的分析才被认为是确证性的。
在临床研究报告的统计章节中,应该清楚地描述所采用的统计方法,包括临床试验过程中何时做出的方法学决策(见 ICH E3)。
5.2 分析集
数据纳入主分析的受试者集应在方案的统计章节进行定义。另外,对试验程序(如导入期)启动的所有受试者进行文档记录可能是有用的。该受试者文档的内容取决于特定试验的详细特征,只要可能,至少应收集人口统计学和疾病状态的基线数据。
如果所有随机入组的受试者都满足全部入组标准,完全遵从所有试验程序且无失访,并能提供完整的数据记录,那么要纳入分析的受试者集是显而易见的。试验设计和实施的目标应该尽可能地接近这一理想状态,但实践中却难以达到这一状态。因此,方案的统计章节应该预先阐述可能影响受试者和分析数据的问题。方案还应该说明旨在减少研究实施中任何预期的且可能影响数据分析的不规则问题的程序,这些不规则问题包括各种类型的方案违背、退出和数据缺失。
方案应考虑降低这些问题发生频率的方法以及如何解决数据分析中会发生的问题。在盲态审核期间,应确定针对方案违背分析方法可能的修订。最好是根据发生时间、原因及对试验结果的影响来确定任何重大方案违背。方案违背、数据缺失以及其它问题的发生频率和类型应记录在临床研究报告中,并描述它们对试验结果的潜在影响(见 ICH E3)。
关于分析集的确定应遵循以下原则:
1)使偏倚减到最小;
2)避免 I类错误膨胀。
5.2.1 全分析集
意向性治疗(见词汇表)原则是指主分析应包括所有随机化受试者。遵循该原则需要完成所有随机化受试者的随访以获得研究结局。实践中这一理想状态很难达到。在本文件中,术语“全分析集”被用来描述尽可能完整的分析集,即尽可能接近包括所有随机化受试者的意向性治疗的理想状态的分析集。在分析中保持初始随机化对于防止偏倚以及为统计检验提供可靠基础是很重要的。全分析集的使用为许多临床试验提供了一种保守策略。许多情况下,它也可以提供处理效应的估计,这些估计更有可能反映了后续临床实践中观察到的效应。
一些有限的情况可能导致将随机化受试者从全分析集中排除,包括未能满足主要入组标准(入选标准违背),未服用过至少一次试验药物以及缺乏随机化后的任何数据。这些排除应是合理的。只有在以下情况下,未能满足入组标准的受试者可从分析中排除而不会引入偏倚:
(1)在随机化之前评判了入组标准;
(2)入选标准违背可以被完全客观地评价;
(3)所有受试者都接受相同的入选标准违背审查;(在开放试验中或者甚至在双盲试验中,如果在审查之前数据被揭盲,相同的审查就很难保证,所以要强调盲态审核的重要性。)
(4)排除所有确定为特定入组标准违背者。
某些情况下,从所有随机化受试者集中排除任何未服用试验药物的受试者可能是合理的。例如,是否开始治疗的决定并不受已知晓所分配治疗的影响,即使排除了这些患者,但意向性治疗原则仍得以遵守。其他情况下,可能需要从所有随机化受试者集中剔除任何随机化后无数据的受试者,除非来自这些特定排除的潜在偏倚或任何其它偏倚得到解决,否则任何分析都不是完整的。
当使用受试者全分析集时,随机化后发生的方案违背可能会对数据和结论产生影响,特别是如果它们的发生与处理分配相关时。大多数情况下把这些受试者的数据纳入分析是合适的,这符合意向性治疗原则。接受一次或多次剂量后退出治疗且以后未提供数据的受试者,或失访的受试者,导致了特殊问题的产生,因为不把这些受试者纳入全分析集中可能会破坏这个原则。这种背景下,受试者无论因任何原因失访,其已经获得的、或根据方案中规定的评价时间点随后收集到的主要指标测量数据,都是有价值的。在主要指标是死亡率或严重疾病发病率的研究中,后续数据的收集尤为重要。
如何收集此类数据应在方案中描述。从末次观察值结转方法到复杂数学模型的填补技术可尝试用于替代缺失值。用于确保全分析集中每个受试者主要指标测量值可利用的其它方法,可能会要求做出关于受试者结局或更简单的结局(如成功或失败)的一些假设。任何策略的使用都应在方案的统计章节中进行描述并说明合理性,并且所用的任何数学模型所依据的假设均应解释清楚。证实相应分析结果的稳健性也同样重要,特别是所考虑的策略本身可能会导致处理效应有偏估计的情况。
由于一些问题的不可预测性,有时把不规则问题应对方法的详细考虑推迟到试验结束对数据进行盲态审核时可能更可取,如果这样做则需要在方案中加以说明。
5.2.2 符合方案集
受试者的“符合方案”集,有时被称为“有效病例”、“有效性”样本或“可评价的受试者”样本, 被定义为全分析集的受试者中对方案更具依从性的子集,并且以符合如下标准为特征:
(1)完成了对治疗方案的某个预先设定的最小暴露量;
(2)可以获得主要指标的测量值;
(3)无任何重大方案违背,包括入组标准违背。
在揭盲之前,应该按照适合于特定试验情况的方式完整定义并记录将受试者排除在符合方案集之外的确切原因。
使用符合方案集可能有最大的机会使新的治疗在分析中显示出额外的有效性,而且最紧密地反映方案中的科学模型。然而,相应的假设检验和处理效应估计可能保守也可能不保守,这取决于试验本身;对研究方案的依从性可能与处理和结局有关,它可能会导致偏倚甚至是严重的偏倚。
5.2.3 不同分析集的作用
一般说来,证明主要试验结果对选择不同受试者集具有不敏感性是有利的。在确证性试验中,计划对全分析集及符合方案集都进行分析通常是恰当的,这样可以明确地讨论和解释它们之间的任何差异。某些情况下,需要深入探讨用于分析的受试者集的选择对结论的敏感性。当全分析集和符合方案集得出实质上相同的结论时,会增加试验结果的可信度,但应注意,对于排除了大比例受试者的符合方案分析会给试验的整体正确性带来一些疑虑。
在优效性试验(试图验证研究产品更优)和等效性或非劣效性试验(试图验证研究产品具有可比性,见第 3.3.2 章节)中,全分析集和符合方案集发挥的作用不同。在优效性试验中,全分析集用于主分析(除了例外情况),因为它倾向于避免符合分析集所导致的对有效性的过度乐观估计,因为包含在全分析集中的非依从者一般会降低所估计的处理效应。然而,在等效性或非劣效性试验中,使用全分析集一般不保守,应非常仔细地考虑它的作用。
5.3 缺失值及离群值
缺失数据是临床试验中的一个潜在偏倚来源。因此,应尽一切努力满足方案对数据收集和管理的所有要求。然而,现实中几乎总会有一些缺失数据。虽然如此,只要缺失数据的处理方法合理,尤其是在方案中预先定义了这些方法,则试验可以被认为是可靠的。在盲态审核期间,可以更新统计分析计划,完善这些方法的定义。遗憾的是,没有可推荐的普遍适用的缺失数据处理方法。应该对缺失数据的处理方法做敏感性研究,特别是当缺失数据的比例较大时。
应采用类似的方法探索离群值的影响,它们的统计定义在某种程度上是主观的。只有从医学上和统计上都认为是合理的,把某一特定值明确地确定为异常值才最具说服力,而且医学方面通常会定义适当的操作程序。在方案或统计分析计划中预先设定的有关离群值的程序应当不倾向任何处理组。同样,在盲态审核期间可以有效地更新这方面的分析。
如果在试验方案中未预先规定应对离群值的程序,则需要在对实际值做一次分析的同时,至少进行一次排除或减少离群值效应的分析,并讨论它们的结果之间的差异。
5.4 数据转换
最好在试验设计期间基于早期临床试验的类似数据,在分析前做出对关键指标进行转换的决定。应该在方案中对数据转换(如平方根转换、对数转换)进行详细说明,并叙述基本原理,尤其是主要指标。在标准教材中可以找到进行数据转换的一般原则,可确保满足统计方法所依据的假设,而且在许多特定的临床领域已经形成了针对特定指标的惯例。
是否以及如何对指标进行转换的决定应该受到对于刻度喜好的影响,以便于临床解释。
类似的考虑也适用于其他衍生指标,例如,自基线变化值、自基线变化百分比、重复测量的“曲线下面积”或两个不同指标的比值。应仔细考虑后续的临床解释,并在方案中说明衍生的合理性。与此密切相关的要点参见第 2.2.2章节。
5.5 估计、置信区间及假设检验
为满足试验的主要目的,应该在方案的统计章节中详细说明待检验的假设和/或待估计的处理效应。用于完成这些任务的统计方法应当针对主要指标(以及优选的次要指标)进行描述,并明确所依据的统计模型。只要有可能,处理效应的估计应伴有置信区间,并确定其计算方法。应当说明使用基线数据以提高精度或以潜在基线差异校正估计值的任何意图,例如,使用协方差分析进行校正。
重要的是,要阐述清楚将使用单侧还是双侧统计检验,如果使用单侧检验一定要事先充分说明其合理性。如果认为假设检验不适用,那么应该给出获得统计结论的替代过程。
关于单侧或双侧推断方法的问题是有争议的,在统计文献中可以找到各种各样的观点。在监管背景下,更可取的方法是将单侧检验的 I 类错误设置为双侧检验中使用的传统 I 类错误的一半,这样就保持了与双侧置信区间的一致性。双侧置信区间通常适合于估计两种处理间差异的可能大小。
所选择的特定统计模型应当反映人们对待分析指标以及试验的统计设计在医学和统计方面的目前认识状态。应充分说明在分析中待拟合的所有效应(例如在方差模型分析中),并应解释根据初步结果对这些效应进行修改的方式(如果有)。同样的考虑也适用于在协方差分析中所拟合的协变量集合(见第 5.7章节)。在选择统计方法时(如参数和非参数方法),应注意主要和次要指标的统计分布,其分析结果应包含处理效应量的统计估计值及置信区间(显著性检验除外)。
应当清楚地区分主要指标的主分析与主要或次要指标的支持性分析。在方案的统计章节或统计分析计划中,除主要和次要指标外还应阐明数据的汇总和报告方式的大纲。为了在一系列试验中实现分析一致性的目的,例如对于安全数据,应当包括所采用方法的介绍。
对于已知的药理学参数、单个受试者的方案依从程度或其它生物学基础数据,整合这些信息的建模方法可以洞察实际或潜在有效性的价值,特别是对于处理效应的估计。应始终清晰地确定这些模型所依据的假设,并仔细描述任何结论的局限性。
5.6 显著性及置信水准的调整
当存在多重性时,用于临床试验数据分析常用的频率派方法可能需要对 I 类错误进行调整。多重性可能来源于多个主要指标(见第 2.2.2章节)、处理的多重比较、随时间的多次评价和/或期中分析(见第 4.5章节)。在可行的情况下,避免或减少多重性的方法有时更可取,例如,在多个指标中确定一个关键主要指标,在多重比较中选择一个关键的处理比较,对于重复测量使用汇总测量如“曲线下面积”等。在确证性分析中,除采取此类步骤,对多重性的其余任何解决办法也应当在方案中确定。应始终考虑多重性的调整,并应在分析计划中交待任何调整程序的细节,或者解释不必调整的理由。
5.7 亚组、交互作用及协变量
除处理之外,主要指标通常系统性地与其它影响因素相关。例如,它可能与年龄和性别等协变量相关,或者比如多中心试验中不同中心接受处理的受试者这样的特定亚组之间可能存在差异。有些情况下,对协变量影响的调整或者对亚组效应的调整是分析计划中不可缺少的部分,因此应在方案中阐明。应通过试验前的缜密考虑,确定这些协变量以及预期对主要指标有重要影响的因素,并考虑在分析中如何处理,以提高精度和补偿处理组之间的任何不平衡。如果使用一个或多个因素进行分层设计,那么在分析中应考虑这些因素。当不确定调整的潜在价值时,通常建议主要关注未调整的分析,把调整分析作为支持性分析。应特别注意中心效应和主要指标基线值的作用。不建议在主分析中校正随机化后测量的协变量,因为它们可能受到处理的影响。
处理效应本身也可能随亚组或协变量而变化,例如,处理效应可能随年龄降低或者可能在特定诊断类别的受试者中更大。某些情况下,预期会产生交互作用或对交互作用有特别兴趣(如老年病学)时,亚组分析或者包含交互项的统计模型因此成为计划的确证性分析的一部分。然而,大多数情况下亚组分析和交互作用分析应当确定为探索性的,即探索所有处理效应的一致性。一般而言,应首先在所讨论的统计模型添加交互项进行分析,辅之以在相关受试者亚组内或者由协变量定义的层内进行额外的探索性分析。对于探索性分析,应谨慎解释其分析结果,仅仅基于探索性亚组分析的治疗有效性(或缺乏有效性)或安全性的任何结论都不太可能被接受。
5.8 数据的完整性与计算机软件的可靠性
分析结果的可信性取决于用于数据管理(数据录入、存储、验证、校正和检索)以及在统计上处理数据的方法和软件(内部和外部编写)的质量和可靠性。因此,数据管理活动应当基于全面和有效的标准操作规程。用于数据管理和统计分析的计算机软件应当是可靠的,并应提供适当的软件测试过程的文件。