药物临床试验机构百问百答-67(安控新能)

作者:安控新能 来源:法迈新媒体 发布时间:2025/5/15 8:54:22

药物临床试验机构百问百答-67(安控新能)

临床试验统计原则

1 引言

1.1 背景与目的

医药产品的有效性和安全性需由临床试验来论证。所采用的临床试验需遵循ICH在1996年5月1日通过的“良好临床实践(GCP):综合指南”(ICH E6)。ICH E6 已阐明统计学在临床试验设计和分析中不可或缺的作用。由于统计学研究在临床试验领域的不断发展,加之临床研究在药物审批流程及一般医疗保健中的重要作用,因此,有必要制订一份关于临床试验统计学问题的简明文件。本指南旨在协调在欧洲、日本和美国提交上市申请的临床试验所应用的统计学方法的原则。

作为起点,本指南使用了欧盟专利医药产品委员会(CPMP)在题为《用于申请医药产品上市许可的临床试验生物统计学方法》(1994年 12月)指南的意见,并参照了日本厚生省的《临床研究中的统计分析指南》(1992 年 3 月)和美国食品药品监督管理局的《新药申请中临床与统计部分的格式与内容指南》(1998 年 7 月)。其他 ICH 指南也包含一些与统计学原则和方法有关的主题,特别是下面所列的指南。

本指南的各个部分会对包含相关内容的特定指南进行标注。

E1A:人群暴露程度对评价临床安全性的影响

E2A:临床安全性数据管理:快速报告的定义与标准

E2B:临床安全性数据管理:个例安全报告传输数据元素

E2C:临床安全性数据管理:上市药品的定期安全性更新报告

E3:临床研究报告的结构与内容

E4:支持药品注册的剂量反应信息

E5:国外临床数据可接受性的种族因素

E6:良好临床实践:综合指南

E7:特殊人群的支持性研究:老年医学

E8:临床试验的一般考虑

E10:临床试验中对照组的选择

M1:用于监管目的的医学术语标准化

M3:用于实施药物人体临床试验的非临床安全性研究

本指南旨在为申办方在整体临床研发背景下,对研究产品临床试验的设计、实施、分析和评价提供指导。本指南也将会帮助科学专家准备上市申请总结报告或者评价主要来自研发后期的临床试验的有效性和安全性证据。

1.2 范围与方向

本指南的重点是统计学原则,并不涉及具体统计步骤或方法的使用。确保这些原则得到正确实施的具体程序性步骤是申办方的职责。本指南对不同临床试验之间的数据整合亦作了讨论,但并不作为重点。其他 ICH指南涵盖了与数据管理及临床试验监查活动有关的原则和程序,此处不再赘述。

本指南对很多科学学科的人士都是有意义的。然而,正如 ICH E6 所述,我们假定所有与临床试验有关的统计工作的实际职责由训练有素且经验丰富的统计师承担。试验统计师(见词汇表)在与其他临床试验专家合作时,其作用和职责是确保在支持药物研发的临床试验中恰当地应用统计学原则。因此,试验统计师应同时具备足够的教育/训练和经验以贯彻本指南所阐明的原则。

对于每一个用于上市申请的临床试验,有关设计、实施和拟采用的统计分析的主要特征等重要细节需在研究方案中阐明。对方案中步骤的遵循程度和主要分析预先计划的程度,都将决定试验最终结果和结论的可信度。方案及后续修订应获得包括试验统计师在内的责任人员的批准。试验统计师应恰当使用技术术语,保证方案以及任何修订都能清楚准确地涵盖所有相关的统计问题。

本指南所述的原则主要与研发后期实施的临床试验有关,其中很多是有效性的确证性试验。除有效性外,确证性试验也可把安全性指标(如不良事件、临床实验室指标或心电图测量)、药效学或药代动力学指标 (如确证性的生物等效性试验)作为主要指标。其次,有些确证性结果可能来源于不同试验的整合数据,本指南有些原则适用于这种情况。最后,虽然药物研发早期本质上以探索性临床试验为主,但统计学原则也与这些临床试验有关。因此,本指南应尽可能地应用于临床研发的各个阶段。

有些偏倚源于试验设计,例如,在处理分配过程中将风险较低的受试者系统地分配到其中一个处理组。其他偏倚源于临床试验的实施和分析。例如,违背方案且基于对受试者结局的认识从分析中排除受试者是偏倚的可能来源,这可能影响处理效应的准确估计。偏倚常在不知不觉中发生,且难以直接测量,因而评价试验结果和主要结论的稳健性是重要的。稳健性是一个概念,是指整体结论对数据的各种限制、假设和数据分析方法的敏感性。稳健性意味着,当基于另一假设或分析方法进行分析时,试验的处理效应和主要结论不会受到实质性的影响。在对处理效应和处理间比较的不确定性的统计测量进行解释时,应考虑偏倚对 P值、置信区间或推断的潜在影响。

由于临床试验设计和分析的主要方法基于频率派统计方法,因此在讨论假设检验和/或置信区间时,本指南主要使用频率派方法(见词汇表)。这并不意味着其它方法不可取,如果理由充分且所得结论足够稳健,则贝叶斯方法(见词汇表)及其他方法亦可考虑。

2 总体临床研发的考虑

2.1 试验背景

2.1.1 研发计划

新药临床研发过程的广义目标是发现药物是否在某一剂量范围和用法上能够显示出既安全又有效,且其风险获益关系能够被接受。可能从药物获益的特定对象以及特定的适应症也需要被定义。

满足这些目标通常需要一系列循序渐进的临床试验,每一个临床试验有其特定目的(见 ICH E8) ,应该在一个或一系列临床计划中明确,这些计划应具有适当的决策点和随知识累积而进行修订的灵活性。上市申请应清晰地描述这些计划的主要内容和每个试验的作用。对整个试验项目证据的解释和评价需要综合单个试验的证据(见第 7.2章节) ,为此应确保试验在一些特征上采用通用标准,如医学术语词典、主要测量的定义与时点、方案违背的处理,等等。当医学问题通过一个以上的试验来回答时,统计汇总、综述或 meta分析(见词汇表)可能会有用。应尽量在计划中考虑到这一点,以便清晰地确定相关的试验,并且预先指定必要的设计方面的共同特征。应该在该计划中阐述可能会涉及整体计划中若干试验的其他主要统计学问题(如果有的话) 。

2.1.2 确证性试验

确证性试验是一种预先提出假设并进行评价的具有充分对照的试验。原则上确证性试验需要提供有效性或安全性的确凿证据。此类试验中,感兴趣的关键假设通常需预先定义,应能直接反映试验的主要目的,且在试验完成后得到检验。在确证性试验中,以适当的精度估计处理效应的大小,与把这些效应和临床意义联系起来同等重要。

确证性试验旨在提供确凿证据以支持主张,因此,按照方案及标准操作规程进行试验尤为重要。应该解释和书面记录不可避免的变化,并考察它们的影响。此类试验设计的合理性以及其它重要的统计方面,如计划分析的主要特征,均应写入方案。每个试验应仅解决有限的问题。

支持所主张的确凿证据要求确证性试验的结果证实研究产品具有临床获益。因此确证性试验应清晰明确地回答每一个与有效性或安全性主张有关的关键临床问题。另外,推论(见词汇表)到目标患者人群的基础得以理解和解释很重要,这也会影响到所需研究中心和/或试验的数量和参与人员(如专家或全科医师)。确证性试验的结果应当是稳健的。某些情况下,单一确证性试验所提供证据强度可能就足够了。

2.1.3 探索性试验

确证性试验的理论基础和设计几乎总是依赖于一系列早期探索性临床研究工作。这些探索性研究和所有临床试验一样应有清晰和明确的目的,但与确证性试验相比,它们的目的并不总是对预先定义的假设进行简单检验。此外,探索性试验可能有时需要采用更灵活的方法进行设计,以便根据积累的结果更改设计。它们的分析可能仅限于数据探索,也可能进行假设检验,但假设的拟定可能依赖于数据。尽管这类试验可能对整体的相关证据有贡献,但不能作为证明有效性的正式依据。

任何试验可能同时具有确证性和探索性两个方面。例如,在大多数确证性试验中,也会对数据进行探索性分析,作为解释和支持研究发现、为后期研究提出进一步假设的基础。

方案应明确区分进行确证试验和对数据做探索性分析的两种不同情况。

2.2 试验范围

2.2.1 人群

在药物研发的早期阶段,临床试验受试者的选择在很大程度上受到主观愿望的影响,即希望最大可能地观察到感兴趣的特定临床疗效,因此,研究对象往往是药物最终适用的患者总体中一个非常局限的亚组。但在开展确证性试验的时候,试验受试者应更能反映目标人群。因此,在保持足够的同质性以精确估计处理效应的同时,尽可能放宽目标人群的纳入和排除标准,这对确证性试验是有益的。由于地理位置、实施时间、特定研究者和诊所的医疗实践等因素的影响,任何一个临床试验都不可能完全代表将来的用药者。尽管如此,应尽可能减少这些因素的影响,并在解释试验结果时充分讨论。

2.2.2 主要和次要指标

主要指标(又称“目标”指标,主要终点)应能够提供与试验主要目的直接相关的最具临床相关性和说服力的证据。

通常应只设置一个主要指标。因大部分确证性试验的主要目的是提供与有效性相关的强有力的科学证据,所以主要指标通常是有效性指标。安全性/耐受性有时也可能是主要指标,且会一直是一种重要的考量。有关生活质量和卫生经济的指标是进一步的潜在主要指标。主要指标的选择应反映相关研究领域公认的准则和标准。建议使用在早期研究或发表文献中获得的具有实践经验的可靠且已验证的指标。在纳入和排除标准所描述的患者人群中,应该有充分的证据说明主要指标能够有效和可靠地度量临床相关的和重要的治疗获益。主要指标通常用于样本量估计(见第3.5章节)。

很多情况下,评价受试者结局的方法可能并不直接,应仔细定义。例如,将死亡率作为主要指标而无进一步说明是不够的,因为对死亡率的评价可以是比较某些固定时点的存活比例,也可以是比较在特定时域内生存时间的总体分布。

另一个常见的例子是复发事件,处理效应的测量可以是简单的二分类指标(特定时期内的任何复发)、首次复发的时间、复发率(观察的单位时间的事件数),等等。在评价慢性病的处理效应时,随时间变化的功能状态对选择主要指标提出了其他挑战。相应的方法有多种,例如,观察期开始和结束时所做评价的比较、由观察期所有评价求得的斜率的比较、超过或低于规定阈值的受试者比例的比较、基于重复测量数据方法的比较。为避免因事后定义所产生的多重性担忧,在方案中规定主要指标的精确定义至关重要,因为该定义将用于统计分析。另外,所选择的具体主要指标的临床相关性和相关测量过程的合理性通常需要在方案中阐明。

主要指标及其选择理由应在方案中详细说明。揭盲后重新定义主要指标通常是不可接受的,因为由此引入的偏倚很难评价。当根据主要目的确定的临床效应存在多种测量方法时,应根据临床相关性、重要性、客观性、和/或其它相关特性,在方案中选择其中一种切实可行的测量方法作为主要指标。

次要指标是与主要目的相关的支持性指标,或与次要目的相关的效应指标。在方案中预先定义次要指标,并说明它们的相对重要性以及在解释试验结果时的作用也很重要。次要指标的数量应有限制,且与试验要回答的有限问题相关。

2.2.3 复合指标

当与主要目的相关的多种测量方法中难以确定单一的主要指标时,另一种有用的策略是按预先确定的计算方法将多个指标组合成一个单一或“复合”指标。主要指标有时以多种临床测量方法相组合的形式出现(如关节炎、精神疾病和其它疾病使用的量表),这虽涉及多重性问题,但无需调整 I类错误。将多个指标组合的方法应在方案中详细说明,且应以临床获益的大小对结果进行解释。当复合指标被用作主要指标时,可以对复合指标中有临床意义的单个指标进行单独分析。当量表被用作主要指标时, 阐明内容效度(见词汇表)、评价者内和评价者间信度(见词汇表)及检测疾病严重程度变化的反应度等尤其重要。

2.2.4 全局评价指标

在某些情况下,全局评价指标(见词汇表)用于评价某个处理的整体安全性、有效性和/或实用性。这种指标类型整合了客观指标和研究者对受试者的状态或状态变化的总体印象,它通常是一个有序分类量表。整体有效性的全局评价方法已经用于某些治疗领域,如神经病学和精神病学。

全局评价指标一般带有主观成分。使用全局评价指标作为主要或次要指标时,应该在方案中对量表的以下方面进行详细说明:

1)量表与试验主要目的的相关性;

2)量表的效度和信度基础;

3)如何根据所收集的数据将个体受试者归类于量表中的特定类别;

4)如何将有缺失数据的受试者归类于量表中的特定类别,或用其他方法评价。

若研究者选取的全局评价指标中包含客观指标,则这些客观指标应作为附加的主要指标,或至少作为重要的次要指标。

全局实用性评价综合了获益与风险两方面因素,反映了经治医生的决策过程,即医生在做出使用产品的决策时,必须权衡获益与风险。全局实用性指标会产生这样的问题,即某些情况下会将获益和不良反应方面差别很大的两种产品判断为等效。例如,将一种治疗的全局实用性指标判断为等效于或优效于另一种治疗时,可能掩盖了其疗效甚微或无效但不良反应较少的事实。因此不建议将全局实用性指标作为主要指标。如果全局实用性指标被用作主要指标,则将特定的有效性和安全性结局分别作为附加的主要指标考虑是非常重要的。

2.2.5 多个主要指标

有时需要使用一个以上的主要指标,且每一个指标(或其中一个子集)都足以涵盖其治疗效果的范围。解释这类证据的既定方式应当详细说明,即应该说明对任一指标,或最少几个指标,或全部指标的影响是否被认为是达到试验目的所必需的。应该针对已定义的主要指标清楚地说明主要假设或相关的假设与参数(如均数、百分数、分布),并清楚地叙述统计推断方法。因为存在潜在的多重性问题,所以应解释对 I类错误的影响(见第 5.6章节),也应在方案中给出控制I类错误的方法。在评价对 I类错误的影响时,所提出的主要指标之间的相关程度也需要考虑。如果试验目的是证实所有主要指标的效果,则无需调整 I 类错误,但必须仔细考虑对II类错误和样本量的影响。

2.2.6 替代指标

当通过观察实际临床有效性直接评价受试者的临床获益不可行时,可以考虑间接标准(替代指标—见词汇表)。一些被认为可以预测临床获益的指标通常可作为替代指标。确定替代指标有两个主要关注点:第一,它可能不是相关临床结局的真正预测因子,例如,它可以测量与一个特定药理学机制有关的治疗活性,但不能提供治疗的作用范围与最终效果的全部信息,无论是阳性还是阴性。许多例证表明,治疗在替代指标显示出高度阳性效应,而最终被证明对受试者的临床结局是有害的。与此相反,也有一些例证显示,治疗的临床获益明确却未能在替代指标体现。第二,替代指标可能不会定量测量可直接权衡不良反应的临床获益。验证替代指标的统计学标准已经具备,但是使用它们的经验相对有限。

在实践中,替代证据的强度取决于

(1)替代关系的生物学合理性;

(2)流行病学研究证明替代指标对临床结局的预后价值;

(3)临床试验证明替代指标的处理效应相当于临床结局的效应。一种产品的临床指标和替代指标之间的关系并不一定适用于治疗同一种疾病但具有不同作用方式的另一种产品。

2.2.7 分类指标

连续型或等级指标有时可能需要转化为二分类或其他分类指标。“成功”和“应答”的标准是二分类的常见例子。分类标准需明确规定,例如,连续型指标最小百分比的改善(相对于基线),或者有序等级量表中等于或高于某个阈值水平(如“良”)的按顺序分类。

舒张压降低于 90mmHg是一个常见的二分类例子。当分类有明确的临床相关性时,它们是最有用的。众所周知,选择分类标准很容易使临床结果产生偏倚,因此在方案中应预先定义和特别说明分类标准。由于分类通常意味着信息丢失,因此在分析中会损失检验效能,样本量计算时需加以考虑。

2.3 避免偏倚的设计技术

临床试验中,避免偏倚的最重要的设计技术是盲法和随机化,它们为上市申请中大多数对照临床试验所常规采用。

大多数此类试验采用双盲法,按照合适的随机化方案,对治疗药物进行预先包装并提供给试验中心,只标明受试者编号和疗程,从而使参与试验的任何人都不知道分配给任何特定受试者的具体治疗药物,甚至不知道编码字母。该方法会在第 2.3.1章节和第 2.3.2章节中的大部分内容中进行介绍,例外情况会在最后考虑。

设计阶段应在方案中制定针对性措施,以使试验实施过程中可能损害分析的不规范操作最小化,从而减少偏倚。这里指的不规范操作包括各种类型的方案违背、退出和数据缺失。方案中应考虑一些方法,以减少出现这些问题的频率,以及解决在数据分析中出现的问题。

2.3.1 盲法

盲法或遮蔽是为了限制临床试验的实施和解释时所产生的有意或无意的偏倚,这些偏倚可能源于以下情况的影响:知晓受试者的招募和处理分组、受试者的后续治疗、受试者对治疗的态度、终点评价、退出的处理、从分析中剔除数据,等等。盲法的根本目标是防止知晓处理分组,直到所有产生偏倚的机会都消失。

在双盲试验中,所有受试者及参与受试者的治疗或临床评价的研究者和申办方人员,包括确定受试者资格、评价终点或评价方案依从性的任何人,均不知道受试者所接受的治疗。在整个试验实施过程中,这种盲态要始终保持,只有当数据被清理到可接受的质量水平时,才可对适当的人员揭盲。

达到理想的双盲会有很多困难:有些处理可能具有完全不同的性质,例如,手术和药物治疗;两种药物可能具有不同的剂型,虽然使用胶囊可以令它们无法被区分,但改变剂型可能会改变药代动力学和/或药效学的特性,因此需要建立制剂的生物等效性;两种处理的每日用法可能不同。这些情况下,使用“双模拟”(见词汇表)技术是实现双盲条件的一种方法,该技术有时会强制实施一种非同寻常的使用方案,使得受试者的积极性和依从性受到负面影响。伦理上的困难也可能会干扰该技术的应用,例如手术过程的模拟。无论如何,应当努力克服这些困难。

某些临床试验的双盲性质可能由于明显的处理诱导效应而遭到部分破坏。这种情况下,使研究者和有关申办方人员对某些检验结果(如所选择的临床实验室测量)保持盲态,可以使盲法得到改善。使偏倚最小化的类似方法(见下文)应当在开放试验中考虑,例如独特的处理效应无法对患者设盲的试验。

如果双盲试验不可行,则应考虑用单盲方案。有些情况下,只有开放试验在实践上或伦理上是可行的。单盲和开放试验更具灵活性,但特别重要的是,研究者知道了下一个受试者的处理不应影响入组受试者的决定,即该决定应在知道随机化处理之前做出。对于这些试验,应考虑使用中央随机化方法,如采用电话随机化管理处理的分配。此外,应该由不参与治疗受试者并对处理保持盲态的医务人员进行临床评价。在单盲或开放试验中,应尽一切努力使各种已知的偏倚来源降到最低,并且应采用尽可能客观的主要指标。应在方案中解释所采用的盲态程度的原因,以及所采取的使偏倚最小化的措施。例如,申办方应当有严格的标准操作规程,以保证在清理数据库以供分析之前,适当限制对处理编码的获取。

只有经治医师认为对某一受试者的治疗有必要知道其处理分配时,才应考虑对该受试者破盲。无论什么原因导致的任何有意或无意地破盲都应该在试验结束时给予报告和解释。处理分配的揭盲过程及时间都应该记录在案。

本文件中,数据的盲态审核(见词汇表)是指在试验完成(对最后一位受试者的最后一次观察)到揭盲之间的这段时间内对数据的检查。

2.3.2 随机化

在临床试验中,随机化将机会元素引入到受试者的处理分配中。在试验数据的后续分析期间,它为定量评价与处理效应有关的证据提供了坚实的统计基础。它倾向于使各处理组的已知和未知的预后因素分布相似。与盲法结合,在受试者的选择和分配时,随机化有助于避免因处理分配的可预测性而可能出现的偏倚。

临床试验的随机化列表记录了施与受试者处理的随机分配,其最简单的方式是处理的序列表(或交叉试验中的处理序列),或按受试者编号对应的编码。有些试验,如具有筛选阶段的试验,可能使问题复杂一些,但是预先计划的受试者的处理分配或处理序列应是唯一的。不同的试验设计需要不同的程序来生成随机化列表。随机化列表应当有重现性(如果需要)。

虽然无限制条件的随机化是一种可接受的方法,但区组随机一般具有某些优势,它有助于增加处理组间的可比性,特别是当受试者特征可能随时间变化时,例如由于招募策略改变引起的变化。它还能更好地保证各处理组的样本量几乎相等。在交叉试验中,它提供了获得具有更高效率和更易于解释的平衡设计的方法。选择区组长度时需注意,既要足够短以限制可能的不平衡,又要足够长以避免对区组序列末尾的可预测性。区组长度通常应对研究者及其他有关人员保持盲态;使用两种或多种区组长度与每个区组随机选择长度,可达到同样目的。(理论上,在双盲试验中,可预测性并不重要,但药物的药理作用可能提供猜测机会。)

对于多中心试验(见词汇表),应按中心进行随机化。提倡每个中心有一个单独的随机方案,即按中心分层或为每个中心分配若干完整的区组。更一般地,按照基线测量的重要预后因素(如疾病的严重程度、年龄、性别等)进行分层,可保障层内的平衡分配,这种方法在小型试验中潜在益处更大。分层因素一般不超过三个,否则实现平衡不仅困难,而且麻烦。应用动态分配程序(见下文)可能有助于同时在多个分层因素之间达到平衡,只要可以调整其余试验流程以适应这类方法。应当在后续的分析中对分层随机化的因素加以考虑。

进入试验的下一个随机化受试者,应该接受对应于随机化列表(如果随机化是分层的,则在相应的层中)中下一个号码的处理。只有当已经确认下一个受试者进入到试验的随机化阶段时,才能给受试者分配合适的号码和相关处理。具有增加可预测性的随机化细节,如区组长度,不应包含在试验方案中。随机化列表本身应该由申办方或独立方安全存档,以确保整个试验过程维持盲态。在试验期间获取随机化列表应该考虑在紧急情况下为任何受试者破盲的可能性。破盲应遵循的程序、必要的文件以及受试者后续的处理和评价均应在方案中写明。

动态分配也是一种选择,该方法根据当前已分配的处理的平衡情况进行处理分配,对于分层试验,处理分配视受试者所属层内的平衡情况而定。应当避免确定性的动态分配程序,应当为每个处理分配纳入适当的随机化要素。应尽一切努力保持试验的双盲状态。例如,仅限于中央试验办公室知道处理编码,并由办公室通过电话联系来控制动态分配。这种方法允许对入选标准进行额外检查,并会建立试验入组的记录,这些信息对某些类型的多中心试验具有价值。随后会启用双盲试验的预包装和贴标签的药品供应系统,但它们的使用顺序不再是依次的。最好使用适当的计算机算法使中央试验办公室的人员对处理编码保持盲态。当考虑动态分配时,应该仔细评价物流的复杂性以及对分析的潜在影响。

3 试验设计的考虑

3.1 设计类型

3.1.1 平行组设计

对于确证性试验,最常见的临床试验设计是平行组设计,该设计将受试者随机分配到两组或多组中的一组,每组采用不同的处理。这些处理包括一个或多个剂量的研究产品,以及一个或多个对照处理,如安慰剂或/和阳性对照。该设计的假设比大多数其它设计简单,但与其它设计一样,可能会有使分析和解释复杂化的额外试验特征,如协变量、随时间的重复测量、设计因素之间的交互作用、方案违背、脱落(见词汇表) 、退出等。

3.1.2 交叉设计

在交叉设计中,每个受试者被随机分到两个或多个处理序列,因此处理间的比较相当于自身对照。这种简单策略之所以有吸引力,主要因为它减少了满足检验效能所需的受试者,有时减少的程度相当可观。2×2 交叉设计是最简单的,该设计通常在先后两个处理周期中安排一个洗脱期,每个受试者以随机顺序在每个处理周期接受两个处理中的其中一个。最常见的扩展设计是 n 个周期和 n(>2)个处理,每个受试者先后接受所有 n 个处理。此类设计形式多样,例如,每个受试者接受 n(>2)个处理中的一个子集,或者对一个受试者重复给予处理。

交叉设计有很多问题可导致其结果无效,主要困难在于残留效应,即在后继处理周期内的前序处理的残余影响。使用相加模型时,不同的残留效应将使处理间的直接比较产生偏倚。对于 2×2设计,统计上无法将残留效应从处理与周期的交互作用中区分开来,并且因为相应的对比是“受试者之间”,故检验这两个效应中任何一个都缺乏检验效能。这一问题在高阶设计中并不严重,但不能完全消除。

因此,使用交叉设计重要的是要避免残留效应,最好的办法是在充分了解疾病领域和新药的基础上有选择地和谨慎地使用该设计,诸如针对病情稳定的慢性病;治疗周期内可充分发挥药物的相关效应;洗脱期足够长以使药物效应完全消退等。应该在试验前利用已有信息及数据确定是否可满足这些条件。

交叉试验还有一些需要密切注意的问题,其中,受试者失访导致的分析和解释的复杂化最值得关注。另外,残留效应的潜在作用导致后续处理周期所发生的不良事件很难判断是哪种处理所致。这些问题以及其它问题在 ICH E4 中已有阐述。交叉设计一般应严格限于预期仅有少数失访的试验。

采用2×2交叉设计验证相同药物的两种制剂的生物等效性甚为常用,往往令人满意,尤其是以健康志愿者为对象的试验,如果两个周期间的洗脱时间足够长,极不可能发生相关药代动力学指标的残留效应。不过,在分析期间基于获得的数据核实这一假设仍然非常重要,例如,通过在每个周期开始时未检测到药物来证实无残留效应。

3.1.3 析因设计

在析因设计中,通过使用不同的处理组合可以同时评价两个或多个处理。最简单的例子是2×2析因设计,受试者被随机分配到两个处理 A 和 B 的四种可能组合之一,即单独A、单独 B、既有 A又有 B、既无A又无 B。该设计多以检验 A和 B的交互作用为特定目的。如果基于检验主效应计算样本量,则交互作用统计检验的检验效能可能不足。当该设计被用于检验 A和 B的联合效应时,特别是如果两者可能被一起使用,这一考虑尤为重要。

析因设计的另一个重要用途是,建立同时使用处理 C和D时的剂量-反应特征,特别是在先前试验中每种单一疗法的某个剂量的有效性已被证实的情况。设 C的剂量数为 m(通常包括零剂量,即安慰剂),相似的 D的剂量数为 n,整个设计由 m×n 个处理组构成,每个处理组为一种不同的 C 和 D的剂量组合,则应用响应面的结果估计可以帮助确定临床使用的 C和 D剂量的恰当组合(见 ICH E4)。

某些情况下,如评价两种处理的有效性所需的受试者数量与单独评价任一种处理的有效性所需的受试者数量相同时,2×2 设计可能会更高效地利用受试者,这一策略已经被证实对非常大型的死亡率试验颇有价值。该方法的效率和可靠性取决于处理 A 和 B 之间不存在交互作用,使得 A 和 B对主要有效性指标的主效应服从相加模型,因此,无论是否追加 B的效应,A的效应是确定的。对于交叉试验,应在试验前利用先前的信息和数据,这很可能会找到满足无交互作用的证据。

3.2 多中心试验

开展多中心试验主要有两个原因。首先,多中心试验是一种更加高效地评价新药的可接受的方法;某些情况下,为在合理的时间框架内获得足够的受试者以满足试验目的,它可能是唯一可行的方法。原则上,在临床研发的任何阶段均可开展这种性质的多中心试验。多中心试验可能有几个中心,每个中心的受试者数量较大;也可能有很多中心,每个中心只有很少的受试者,比如罕见病研究。

其次,设计成多中心(和多个研究者)试验主要是为研究结果的后续推论提供更好的基础,因为从更广泛的人群中招募受试者和呈现更宽泛的使用药物的临床环境,从而呈现出更典型的未来用药场景。这种情况下,许多研究者的参与也可提供更宽泛的药物价值临床判断。此类试验在药物研发后期将成为确证性试验,可能有大量的研究者和中心参与。

为增强可推论性 (见词汇表), 多中心试验有时会在许多不同国家实施。

要想充分解释和外推多中心试验结论,所有中心实施研究方案的方式应该是明确的和相似的。样本量和检验效能的计算通常基于各中心的处理间差异是相同的无偏估计的假设,因此,制定共同研究方案并给予实施很重要。试验的实施流程应该尽可能标准化。通过研究者会议、试验前的人员培训和试验期间的严密监查,可以减少评价标准和方法的不一致性。良好设计的目的通常是实现每个中心内各处理组的受试者分布相同,而良好管理可以对该目的起到支持作用。

应避免中心间的病例数相差太大以及个别中心病例数太少,这一考虑的好处会在后期探查中心间处理效应的异质性时显示出来,因为这样可以减少处理效应不同加权估计之间的差异。(这一点并不适用于所有中心病例数都非常少的试验,以及分析时不考虑中心效应。)如果不采取这些预防措施, 加之对结果同质性的质疑,会使多中心试验的价值降低,有时甚至严重到不能为申办方的主张提供令人信服的证据的地步。

最简单的多中心试验是每位研究者负责在一家医院招募受试者,所以,“中心”是由研究者或医院唯一确定的。可是,很多试验会更复杂一些,例如,一个研究者可能从几家医院招募受试者;一个研究者可能代表一个临床医生团队(参与研究者),他们或从一家医院所辖的几个诊所, 或从几家相关的医院招募受试者。只要对统计模型中关于中心的定义有疑义,方案中的统计章节(见第 5.1 章节)就应在特定试验背景下明确定义该术语(例如,按研究者、场所或地区)。

多数情况下,根据研究者定义中心较为可行,ICH E6在这方面提供了相关指南。定义中心的目的是使影响主要指标测量的因素和处理的影响达到同质,以免因此引起质疑。任何将中心合并起来进行分析的规则应尽可能在方案中合理阐述并预先规定,但是,任何基于此方法的决策都应始终在盲态下做出,如盲态审核。

方案中应该描述处理效应的估计和检验的统计模型。主要处理效应估计可首先使用包含中心效应的模型,但不包含处理与中心的交互项。如果处理效应中心间是同质的,则在模型中常规地包含交互项会降低对主要效应的检验效率;如果确实存在处理效应的异质性,则对处理效应的解释是有争议的。

某些试验,如大型的死亡率试验,每个中心只有很少受试者,设想中心对主要或次要指标有任何影响都是缺乏依据的,因为中心因素的影响不可能代表临床重要性。还有一些试验可能从一开始就会认识到每个中心有限的受试者使得统计模型中包含中心效应变得不切实际。这种情况下,模型中不应包含中心项,而且也没有必要按中心进行分层随机化。

对于每个中心都有充足的受试者的试验,如果发现阳性处理效应,通常应探索不同中心间处理效应的异质性,因为这可能影响结论的外推性。通过各中心结果的图示方法,或通过对中心与处理间交互作用的统计检验,可能会发现明显的异质性。对交互效应做统计检验时,需认识到其检验效能不高,因为试验是基于探测处理的主效应而设计的。

如果发现处理效应的异质性,则应当谨慎地加以解释,并应积极尝试从试验管理的其他特征或受试者特征方面来寻找原因。这样的原因通常会提示适当的进一步分析和解释。

在缺乏原因的情况下,一旦证实处理效应的异质性,例如,通过明显的定量交互作用(见词汇表),意味着处理效应可能需要另一种估计,比如给中心不同赋权以保障处理效应估计的稳健性。理解定性交互作用(见词汇表)的异质性甚至更为重要,当未能找到原因时,要想可靠地预测处理效应,可能需要进一步开展临床试验。

以上针对多中心试验的讨论都是基于采用固定效应模型的。

混合模型也可用于探索处理效应的异质性,它把中心效应和中心与处理间的交互效应看作是随机的,尤其适合于中心数量特别多的情况。

3.3 比较的类型

3.3.1 优效性试验

科学地讲,通过安慰剂对照试验显示优于安慰剂,或通过显示优于阳性对照处理,或显示剂量-反应关系,所得到的疗效是最可信的。此类试验被称为“优效性”试验 (见词汇表)。

本指南一般以优效性试验为假定,除非另有明确说明。

对于严重疾病,如果存在经优效性试验验证的有效的治疗方法,采用安慰剂对照试验可能被认为是有悖伦理的。这种情况下,应当科学地采用阳性对照。安慰剂对照和阳性对照的适用性应当不同试验给予不同考虑。

3.3.2 等效性或非劣效性的试验

某些情况下,研究产品与参照处理相比的目的并非为了显示优效性。此类试验根据其目的分为两大类, 一类是“等效性”试验 (见词汇表), 另一类是“非劣效性”试验 (见词汇表)。

生物等效性试验属于前一类。某些情况下,出于其他监管原因也进行临床等效性试验,例如,当化合物不被吸收并因此不存在于血液中时,验证仿制产品与已上市产品的临床等效性。

很多阳性对照试验用于验证研究产品的有效性非劣效于阳性对照药,因此属于后一类。另一种可能是在试验中将研究药品的多个剂量与标准药品的推荐剂量或多个剂量进行比较。这种设计的目的是同时显示研究产品的剂量-反应关系,并将研究产品与阳性对照进行比较。

阳性对照等效性或非劣效性试验也可引入安慰剂对照,从而在一个试验中设定多个目标,例如,这种设计在验证优效于安慰剂的同时,还可以评价相对于阳性对照的有效性与安全性的相似程度。众所周知,采用不包含安慰剂或不设置新药多个剂量的阳性对照等效性(或非劣效性)试验会面临一些困难。与优效性试验相比,此类试验隐性缺乏内部效度,因此必须进行外部验证。等效性(或非劣效性)试验本质上并不保守,因此,在试验设计或实施中的许多缺陷倾向于使结果倾向等效的结论。由于这些原因,这些试验的设计特点应受到特别关注,它们的实施需要特别小心,例如,尽量减少违反入选标准、不依从、退出、失访、数据缺失和其它偏离方案的发生率,并使它们对后续分析的影响降至最低。

应谨慎选择阳性对照。恰当的阳性对照应该是一种被广泛使用的疗法,其针对相关适应症的疗效已在良好设计和良好记录的优效性试验中得到了量化确认,并且能够可靠地预期在将要实施的试验中显示出相似的疗效。为此,新试验应该与以前实施且明确显示出临床相关疗效的优效性试验具有相同的重要设计特征(主要指标、阳性对照的剂量、入排标准等) ,且考虑与新试验相关的医学或统计学实践的进展。

在试验方案中,一个关键问题是要把证明等效性或非劣效性的意图清晰明确地表述出来。方案中应规定一个等效界值,该界值被视为临床可接受的最大差异,并且应当小于在阳性对照优效性试验中所观察到的差异。对于阳性对照等效性试验,需规定等效界值的上限和下限;而对于阳性对照非劣效性试验,仅需规定界值下限。等效界值的选择应具备临床的合理性。

统计分析通常采用置信区间方法(见第 5.5章节)。对于等效性试验,应当使用双侧置信区间。如果置信区间完全落在等效界值之内,可推断为等效。在实操上,该法相当于双单侧检验方法,其(复合)无效假设是处理间差异在等效界值之外,(复合)备择假设是处理间差异在等效界值之内。由于两个无效假设无重叠,故 I 类错误可控。对于单侧假设检验,其无效假设是处理间差异(试验品减去对照品)等于或小于等效界值的下限,而备择假设是处理间差异大于等效界值下限。单侧或双侧检验的 I 类错误选择有所不同。样本量计算应当基于这些方法(见第 3.5章节)。

在研究产品与阳性对照之间无差异的无效假设下,如果基于观察到无显著差异的检验结果,做出等效性或非劣效性的结论是不合适的。

在选择分析数据集时也存在一些特殊问题。处理组或对照组退出或脱落的受试者都倾向于缺乏应答,因此使用全分析集(见词汇表)的结果证实等效性可能存在偏倚 (见第 5.2.3章节)。

3.3.3 剂量-反应关系的试验

新研究产品的剂量与应答如何相关,是一个在研发的所有阶段通过各种方法都可获得答案的问题(见 ICH E4)。剂量反应试验可服务于许多目的,相对重要的有:有效性的确证;剂量反应曲线的形状和位置的研究;适宜初始剂量的估计;个体剂量调整的最优策略确定;最大剂量的确定(超出该剂量不可能额外获益) 。达到上述目的需要收集研究中各种剂量的数据,包括安慰剂(零剂量)。为此,需用到估计剂量反应关系的方法,包括统计检验以及同样重要的置信区间构建和图示方法。假设检验可能需要根据剂量的自然顺序或关于剂量-反应曲线的形状(如单调性)的特定问题做出调整。

应当在方案中提供详细的统计分析计划。

3.4 成组序贯设计

采用成组序贯设计便于进行期中分析(见第 4.5 章节和词汇表)。成组序贯设计虽然不是用于期中分析的唯一可接受的设计类型,却是最常用的,因为在试验期间以周期性间隔评价不同分组的受试者的结局比在获得整个试验每一个受试者数据后进行评价更为可行。在获得处理结局和受试者的处理分配(如揭盲,见第 4.5 章节)的信息之前,应充分说明统计方法。独立数据监查委员会(见词汇表)可对来源于成组序贯设计的数据实施审查或进行期中分析(见第 4.6章节)。该设计不仅已被最广泛地、成功地应用于大型、长周期的以死亡率或主要非致死性结局为终点的试验,它在其它方面的应用也在增加。尤其是,人们已经认识到所有试验中都必须监查安全性,因此,为了出于安全原因提早终止试验而制定正式流程的必要性往往是需要考虑的。

3.5 样本量

临床试验的受试者例数应足够大,以对所提出的问题提供可靠答案。样本量通常由试验的主要目的确定,如果由其它要素确定,则应明确说明理由。例如,基于安全性问题或需要或者基于重要的次要目的确定的样本量可能比基于主要有效性问题确定的样本量需要更多的受试者(例如,见 ICH E1a)。

一般的样本量确定方法应考虑以下要素:主要指标、检验统计量、无效假设、所选剂量下的备择(“工作”)假设(所选受试者人群中在所选剂量下检测出或拒绝的处理间差异)、错误拒绝无效假设的概率(I类错误)、错误地不拒绝无效假设的概率(II类错误),以及应对退出和违背方案的处理方法。

某些情况下,以事件率为评价检验效能的主要手段,此时需要做出一些假设,以从所需的事件数推算出试验的最终样本量。

应在方案中给出计算样本量的方法,以及在计算中使用的任何估计量(如方差、均值、反应率、事件率、待检测的差异)。也应该给出这些估计的依据。研究这些假设的偏离对样本量估计的敏感性很重要,而根据偏离假设的合理范围给出对应的样本量范围则是一种方便可行的方法。在确证性研究中,假设通常应基于公开发表的数据或早期试验的结果。

对于待检测的处理间差异,可依据在患者管理中对具有临床相关性的最小效应的判断,也可依据对新处理的预期效应的判断,相比之下后者的预期效应更大。通常 I 类错误概率设在 5%或者更小,或者由多重比较所需要的任何调整来决定;检验假设的事先合理性以及结果的预期影响可能会影响 I 类错误的精确选择。II类错误的概率通常设在10%到20%之间,申办方通常愿意让该值尽可能低,尤其当试验难以或不可能重复时。某些情况下,采用与常规的 I类和 II类错误水平不同的值也可能被接受,甚至更可取。

样本量应是主分析所需的受试者数量。如果这是“全分析集”,则效应大小的估计与符合方案集(见词汇表)相比,可能需要降低。这是因纳入了退出处理的或者依从性差的患者数据,而考虑稀释处理效应。相应地关于变异的假设可能也需要修改。

等效性或非劣效性试验(见第 3.3.2章节)的样本量通常应基于获得处理间差异的置信区间的目的,该差异是指临床可接受的最大处理间差异。如果等效性试验的检验效能是在假设真实差异为 0 的条件下确定的,如果真实差异不为 0,则达到这一检验效能所需的样本量会被低估。如果非劣效性试验的检验效能是在假设 0差异的条件下确定的,如果试验产品的效应低于对照,则达到这一检验效能所需的样本量会被低估。“临床可接受的”差异的选择需要合理说明它对将来患者的意义,并且可能小于上文提到的优效性试验旨在证明的“临床相关的”差异。

成组序贯试验不能预先确定确切的样本量,因为它依赖于机会作用以及所选择的终止试验的准则和真实的处理间差异。终止准则的设计应该考虑后续样本量的分布,通常表达为预期样本量和最大样本量。

当事件率低于预期或变异大于预期时,在不揭盲数据或不进行处理间比较的情况下,可使用样本量重新估计的方法(见第 4.4章节)。

3.6 数据采集及处理

数据的收集和研究者向申办方传输数据可通过各种媒介进行,包括纸质病例报告表、远程现场监查系统、医疗计算机系统和电子传输。无论采用何种数据收集工具,所收集信息的形式和内容都应完全符合方案,并应在临床试验实施前确定。应注重分析计划的实施所必须的数据,包括确认方案依从性或确定重要方案违背所需要的背景信息(如与服用剂量有关的时点评价)。“缺失值”应该与“0 值”或“特征缺失”区分开来。

从数据收集到数据库最终确定的过程应该按照 GCP 进行(见 ICH E6,第 5章节)。具体来说,需要及时可靠的程序用于记录数据和纠正错误与遗漏,以确保交付高质量的数据库,并通过实施计划的分析达到试验目的。