1.比较类型
临床试验中比较的类型,按统计学中的假设检验可分为优效性检验、等效性检验和非劣效性检验。在临床试验方案中,需要明确试验的目的和比较的类型。
优效性检验的目的是显示试验药的治疗效果优于对照药,包括:试验药是否优于安慰剂;试验药是否优于阳性对照药;或剂量间效应的比较。等效性检验的目的是确证两种或多种治疗的效果差别大小在临床上并无重要意义,即试验药与阳性对照药在疗效上相当。而非劣效性检验目的是确证试验药的疗效如果在临床上低于阳性对照药,其差异也是在临床可接受范围内。
在显示后两种目的试验设计中,阳性对照药的选择要慎重。所选阳性对照药需是已广泛应用的、对相应适应症的疗效和用量已被证实,使用它可以有把握地期望在目前试验中表现出相似的效果;阳性对照药原有的用法与用量不得任意改动。阳性药物选择时应考虑以下两个方面:
1.1.阳性对照有效性的既有证据
阳性对照效应来源于文献报道的有良好试验设计的试验结果,这些历史试验已明确显示本次非劣效试验中采用的阳性对照或与其类似的药物优于安慰剂,且随时间迁移,阳性对照的疗效基本维持稳定。根据这些试验结果可以可靠地估计出阳性对照的效应大小。阳性对照的效应量是非劣效试验的关键设计参数(用以确定非劣效界值),既不能用历史研究中最好的疗效作为其效应量的估计,也不能仅用荟萃分析的点估计作为效应量的估计,效应量估计时要充分考虑历史研究间的变异。
1.2.阳性对照药物效应的稳定性
阳性对照效应的估计来源于历史研究,虽然考虑了历史研究间的变异,但仍有历史局限性,受到很多因素诸如当时的受试人群、合并用药、疗效指标的定义与判定、阳性对照的剂量、耐药性以及统计分析方法等的影响。因此,采用非劣效试验设计时要尽可能地确保本次临床试验在以上提及的诸多因素方面与历史研究一致。另外非劣效/等效性设计,良好的偏倚控制和质量控制是此类设计的关键。因此,在试验设计和实施阶段都应该提高试验质量要求,只有高质量的临床试验才能保证非劣效/等效临床试验的检定灵敏度。
2.设计类型
2.1.平行组设计
平行组设计是最常用的临床试验设计类型,可为试验药设置一个或多个对照组,试验药也可设多个剂量组。对照组可分为阳性或阴性对照。阳性对照一般采用按所选适应症的当前公认的有效药物,阴性对照一般采用安慰剂,但必须符合伦理学要求。试验药设一个或多个剂量组完全取决于试验的目的。
2.2.交叉设计
交叉设计是按事先设计好的试验次序,在各个时期对受试者逐一实施各种处理,以比较各处理间的差异。交叉设计是将自身比较和组间比较设计思路综合应用的一种设计方法,它可以较好地控制个体间的差异,以减少受试者人数。
最简单的交叉设计是2种药物2个阶段的形式,又称2×2交叉设计,对每个受试者安排两个试验阶段,分别接受A、B两种试验用药物,而第一阶段接受何种试验用药物是随机确定的,第二阶段必须接受与第一阶段不同的另一种试验用药物。因此,每个受试者接受的药物可能是先A后B(AB顺序),也可能是先B后A(BA顺序),故这种试验又简记为AB/BA交叉试验。两阶段交叉试验中,每个受试者需经历如下几个试验过程,即准备阶段、第一试验阶段、洗脱期和第二试验阶段。
每个试验阶段的用药对后一阶段的延滞作用称为延滞效应。前个试验阶段后需安排足够长的洗脱期或有效的洗脱手段,以消除其延滞效应。采用交叉设计时应考虑延滞效应对试验数据分析评价的影响。
2.3.析因设计
析因设计是通过试验用药物剂量的不同组合,对两个或多个试验用药物同时进行评价,不仅可检验每个试验用药物各剂量间的差异,而且可以检验各试验用药物间是否存在交互作用,或探索两种药物不同剂量的适当组合,常用于复方研究。析因设计时需考虑两种药物高剂量组合可能带来的毒副反应。如果试验的样本量是基于检验主效应的目的而计算的,关于交互作用的假设检验,其检验效能往往是不足的。
2.4.配对设计
对于治疗类产品,常见的配对设计为同一受试对象的两个对应部位同时接受试验器械和对照治疗,试验器械和对照治疗的分配需考虑随机设计。配对设计主要适用于器械的局部效应评价,具有一定的局限性。例如,对于面部注射用交联透明质酸钠凝胶的临床试验,配对设计在保证受试者基线一致性上比平行对照设计具有优势,但试验中一旦发生系统性不良反应则难以确认其与试验器械或对照器械的相关性,且需要排除面部左右侧局部反应的互相影响。因此,申请人考虑进行配对设计时,需根据产品特征,综合考虑该设计类型的优势和局限性,恰当进行选择,并论述其合理性。对于诊断器械,若试验目的是评价试验器械的诊断准确性,常见的配对设计为同一受试者/受试样品同时采用试验器械和诊断金标准方法或已上市同类器械来进行诊断。
2.5.单组设计
单组试验的实质是将主要评价指标的试验结果与已有临床数据进行比较,以评价试验器械的有效性/安全性。与平行对照试验相比,单组试验的固有偏倚是非同期对照偏倚,由于时间上的不同步,可能引起选择偏倚、混杂偏倚、测量偏倚和评价偏倚等,应审慎选择。在开展单组试验时,需要对可能存在的偏倚进行全面分析和有效控制。
3.观察指标
观察指标是指能反映临床试验中药物有效性和安全性的观察项目。统计学中常将观察指标称为变量。观察指标分为定量指标和定性指标。观察指标必须在研究方案中有明确的定义和可靠的依据,不允许随意修改。
对于观察指标,在研究的设计阶段,首先需要根据研究目的,严格定义与区分主要指标和次要指标,其次是根据主要指标的性质(定量或定性)和特征(一个或多个、单一指标或复合指标、临床获益或替代指标、客观/主观指标或全局评价指标等),调整研究的统计设计策略,以达到研究的预期目的。
3.1.主要指标和次要指标
主要指标又称主要终点,是与试验主要研究目的有本质联系的,能确切反映药物有效性或安全性的观察指标。主要指标应根据试验目的选择易于量化、客观性强、重复性高,并在相关研究领域已有公认标准的指标。一般情况下,主要指标仅为一个,用于评价药物的疗效或安全性。若一个主要指标不足以说明药物效应时,可采用两个或多个主要指标。方案中应详细描述所关注的主要指标的设计参数及其假设、总Ⅰ类错误率和Ⅱ类错误率的控制策略。主要指标将用于临床试验的样本量估计,多个主要指标的情况下,将制定对总Ⅰ类错误概率的控制策略并保证研究有足够的把握度。
主要指标,包括其详细定义、测量方法(若存在多种测量方法时,应该选择临床相关性强、重要性高、客观并切实可行的测量方法)、统计分析模型等,都必须在试验设计阶段充分考虑,并在试验方案中明确规定。方案中主要指标在试验进行过程中不得修改,若须做修改则应在充分论证的基础上谨慎行事,并在揭盲前完成,不允许揭盲后对主要指标进行任何修改。
次要指标是与次要研究目的相关的效应指标,或与试验主要目的相关的支持性指标。在试验方案中,也需明确次要指标的定义,并对这些指标在解释试验结果时的作用以及相对重要性加以说明。一个临床试验,可以设计多个次要指标,但不宜过多,足以达到试验目的即可。
3.2.复合指标
当难以确定单一的主要指标时,可按预先确定的计算方法,将多个指标组合构成一个复合指标。临床上采用的量表(如神经、精神类、生活质量量表等)就是一种复合指标。将多个指标组综合成单一复合指标的方法需在试验方案中详细说明。主要指标为复合指标时,可以对复合指标中有临床意义的单个指标进行单独的分析。
当采用量表进行疗效评价(如精神类药物、中药、民族药),应该采用国际或领域内公认的量表。采用国外量表作为主要疗效指标时,由于可能存在语言、文化、生活习俗、宗教信仰等多方面的差异,需提供跨文化调适、翻译对等性的研究结果;采用自制量表时,需提供效度、信度和反应度(对疾病严重程度及其变化的区分程度)的研究结果。没有对效度、信度和反应度进行过研究,或者效度、信度和反应度都很低的量表不建议作为临床试验的主要疗效指标。
3.3.全局评价指标
全局评价指标是将客观指标和研究者对受试者疗效的总印象有机结合的综合指标,它通常是等级指标,其判断等级的依据和理由应在试验方案中明确。全局评价指标可以评价某个治疗的总体有效性或安全性,带有一定的主观成份,因此,其中的客观指标常被作为重要的指标进行单独分析。
以全局评价指标为主要指标时,应该在方案中考虑:该全局评价指标与主要研究目的临床相关性、信度和效度、等级评价标准和单项缺失时的估计方法。不建议将“综合疗效和安全性”的全局评价指标作为临床试验的主要指标,因为这样会掩盖药物之间在疗效和安全性方面的重要差异,从而导致决策失误。
3.4.替代指标
替代指标是指在直接评价临床获益不可行时,用于间接反映临床获益的观察指标。例如降压药物的临床获益,常被认为是降低或延迟“终点事件”(心脑血管事件)的发生,但若要评价“终点事件”发生率,需要长时间的观察。在实际中,降压药的临床试验,采用替代指标“血压降低值/血压达标”来评价药物的疗效,因为临床研究和流行病学业已证实:将“血压”控制在正常范围内,可以降低“终点事件”的发生。
一个指标能否成为临床获益的替代指标,需要考察:1)指标与临床获益的关联性和生物学合理性;2)在流行病学研究中该指标对临床结局的预测价值;3)临床试验的证据显示药物对该指标的影响程度与药物对临床结局的影响程度一致。
选择替代指标为主要指标,可以缩短临床试验期限,但也存在一定的风险,尤其是“新”替代指标。药物在替代指标上的优良表现并不一定代表药物对受试者具有长期的临床获益,药物在替代指标上的不良表现也不一定表示没有临床获益。例如,在抗肿瘤药物早期临床试验中,“无进展生存时间”等指标被作为“总生存时间”的替代指标被广泛使用,但其与总生存时间的关联性在不同的肿瘤临床试验中程度不一,因此仍需强调Ⅲ期临床研究中,采用临床终点的重要性。
3.5.定性指标
在某些临床试验中,有时需要将定量指标根据一定的标准转换为等级指标、或将等级指标转化为定性指标,如:用药后血压降低到“140/90mmHg”以下、糖化血红蛋白降低到7.0%以下的受试者比例(达标率)。定量或等级指标转换定性指标的标准,应该具有临床意义、为相关领域公认、并在试验方案中明确规定。由于将定量指标转换为定性指标会损失部分信息导致检验效能的降低,在样本量计算时需加以考虑。如方案定义主要指标为定量指标转化的定性指标时,则研究结论应主要依据该定性指标,而不是其所源于的定量指标。
4.适应性设计
适应性设计(AdaptiveDesign)是指事先在方案中计划的在临床试验进行过程中利用累积到的数据,在不影响试验的完整性和合理性的前提下,对试验的一个或多个方面进行修改的一种设计。好的适应性设计可以加快药物研发的速度,或更有效地利用研发资源。但适应性设计要特别考虑:(1)试验的修改是否会引起Ⅰ类错误增大;(2)试验的修改是否导致试验结果难于解释。因此,无论对试验进行何种修改, 其修改计划和分析策略必须在试验数据揭盲之前在试验方案中进行明确严谨的表述。在适应性设计计划的期中分析中,保持申办者和研究者的盲态非常重要,通常需要一个独立的数据监查委员会(Independent Data Monitoring Committee,IDMC)来通知申办者是否按照事先拟定的方案修改进一步进行试验。
适应性设计有多种可能,包括:(1)试验组和对照组入组分配方式的改变,如由固定区组分配变更为动态随机入组分配;(2)入组人数的改变,如样本量的重新计算;(3)试验终止条件的改变,如根据期中分析结果提示有效或无效性而提前终止试验;(4)或其他设计方法(如临床终点,统计方法)的改变。
目前应用的适应性设计中,成组序贯试验和盲态下样本量的重新计算被认为是在理论和实践中比较广泛被接受的。而其他的诸多设计对于深入认识试验结果的影响因素或提高研究效率(如富集设计)是有帮助的,但对于非盲态下改变临床终点或受试人群等适应性设计,由于可能引入偏倚而影响对结论的判断,故不宜应用于确证性试验中,可在早期探索性试验中使用。
4.1.成组序贯设计
成组序贯设计常用于有期中分析的临床试验中。适用于下列三种情况:(1)怀疑试验药物有较高的不良反应发生率,采用成组序贯设计可以较早终止试验;(2)试验药疗效较差,采用成组序贯设计可以因无效较早终止试验;(3)试验药与对照药的疗效相差较大,但病例稀少,或临床观察时间过长。可见,成组序贯设计一般用于创新药物的临床试验,而不用于仿制药的临床试验。
成组序贯设计是把整个试验分成若干个连贯的分析段,每个分析段病例数可以相等也可以不等,但试验组与对照组的病例数比例与总样本中的比例相同。每完成一个分析段,即对主要指标(包括有效性和/或安全性)进行分析,一旦可以做出结论即停止试验,否则继续进行。如果到最后一个分析段仍不拒绝无效假设,则作为差异无统计学意义而结束试验。
成组序贯设计的盲底要求一次产生,分批揭盲。由于多次重复进行假设检验会使I类错误增加,故需对每次检验的名义水准进行调整,以控制总的I类错误率不超过预先设定的水准(比如α=0.05)。试验设计中需明确α消耗函数的方法。
采用成组序贯设计,由于需要进行多次期中分析,需特别注意盲态的保持,以免引入新的偏倚。同时,在试验开始前应预先明确统计分析方法,规定提前终止试验的标准。期中分析的数据需由独立的第三方进行统计分析,并由审核,以便做出是否继续下一阶段临床试验的决策建议。
4.2.盲态下的样本量的重新计算
当原设计中样本量是在不确切信息的假设条件下估计的,对时间比较长的临床试验,可以在试验进行中对这些假设进行验证,以便对样本量进行重新估计。为了避免揭盲对试验的Ⅰ类错误及试验的科学完整性的影响,这种估计应该是在不揭盲的状态下进行的,主要是对连续变量的变异度或事件发生率进行估计。此估计可用于计算新的样本量,新的样本量若和原样本量相似或比原样本量小,应保持试验样本量不变。若新的样本量比原样本量大并且是切实可行,应通过修订方案写明新的样本量。此类样本量的调整也可由IDMC来完成,并事先应在试验方案中对样本量的重新估计进行计划,样本量再估计应不超过两次。
4.3.富集设计
适应性的富集设计是指当期中分析提示某一亚组人群的疗效优于另一亚组人群的疗效时而调整入组标准,对尚未入组的病例规定只入组疗效好的某一亚组人群的设计。富集设计能够减少研究人群的异质性,从而提高研究的效率。该设计通常根据研究对象与疾病或者预后相关的某些特征把目标人群分为亚组,例如,研究心血管疾病时,可以考虑按目标人群病人是否有糖尿病、高血压等分为高危人群和非高危人群;在肿瘤领域中,通常具有某些生物标记的人群对治疗的反应比没有生物标记的人群要好,这时可以考虑把目标人群分为生物标记阳性和阴性两个亚组。最常用的病人分组因素包括(但不限于)人口学、病理生理学、组织学、遗传学的等等特征;研究方案中一般必须预先明确指出期中分析是根据病人的哪些特征做的亚组分析。根据病人特征进行分组的方法必须经过验证。
期中分析时根据研究方案中预设的病人特征,估计疗效并决定是否需要调整入组标准。由于期中对方案的调整对后续试验在随机、双盲等方面都有一定的影响,方案中必须明确规定避免引入偏倚和调整I类错误概率的方法。最后的结果分析是根据期中分析(方案调整)之前搜集的所有研究对象的数据和之后某一亚组人群的数据加权,而不仅仅是感兴趣的亚组人群的数据;而分析结果的解释也必须明确地说明各亚组人群的构成。值得指出的是,由于富集设计的复杂性,可能对试验的基本原则(如,随机化、双盲、I类错误概率等)有严重影响,在没有充分可靠方法处理和避免这些影响时,和在病人特征对疗效的影响预先不明确的情况下,须慎用富集设计。