随着口腔医学的进展,新技术、新试验、新产品、新材料层出不穷,我们正处在一个信息爆炸的时代。繁忙的口腔临床医务人员如何能在从事繁忙的工作之时同时保持与时俱进?循证口腔医学应运而生,其目的是应用目前最好的证据,结合口腔医生的经验和病人的具体情况为个体病员诊疗做出正确的决策。系统评价是获取最佳证据的主要手段之一。口腔医务人员应当熟悉其评价和制作过程。
系统评价的方法是由英国著名流行病学家ArchieCochrane首先提出的,早在20世纪70年代他就倡导,临床医师需使用已被证明有明显效果的医疗保健措施以应付卫生资源的短缺。而临床随机对照试验所获取的结果是可靠的证据,他建议应当将特定病种、同种疗法的所有随机对照试验结果合并成为说服力比单个试验更强的证据,并在新的临床试验结果出现时予以更新,保证证据更加真实可靠。
疾病防治性系统评价是在筛选并严格评估相关研究的基础上,收集并合并数据,进而对某一防治性问题得出明确的结论。Meta-分析是整合数据的一种统计学方法。运用了Meta-分析的系统评价可以称为定量系统评价,未使用Meta-分析的系统评价为定性系统评价。
系统评价已广泛地应用于病因、诊断、治疗、预防和预后研究中,在口腔医学中的发展也日益壮大。目前Cochrane协作网口腔卫生组已发表系统评价全文99篇,计划书72篇,注册题目41个(2010年第3期);在其他相关杂志上发表的口腔专业类系统评价的数量更多。虽然系统评价为口腔临床实践提供了一定真实可靠的证据,但是这些证据的数量以及论证强度还远远不能满足口腔医学的要求。因此亟待更多的口腔临床工作者深入参与,以便生产出更多高质量的系统评价。
本文通信作者曾于2003年在Cochrane图书馆第一期上发表了一篇名为透明质酸钠治疗颞下颌关节紊乱病(Hyaluronatefortemporomandibularjointdisorders)的系统评价,并在最近对其进行了更新。为了叙述方便,本文便依此系统评价的制作过程,简述防治性系统评价的基本制作方法、步骤及常见问题的解决方法。
1.明确研究目的,确立系统评价题目
像任何其他科学研究一样,在开始进行系统评价之前应有明确的目的。实际上,口腔医学临床实践中目前还没有解决的、需要密切关注的问题甚多。任何热切为患者提供最佳诊治方案、关注学科发展的口腔医生都应该善于提出临床问题,紧抓问题深入思考。进行系统评价,这也是解决临床问题的重要途径。一个关于疾病防治的完整的临床问题应具备四个要素PICOS,即:①涉及什么样的患者(Participants),②涉及何种干预措施(Intervention),③涉及何种比较方法(Comparisons),④涉及何种疗效指标(Outcome),⑤采用何种研究手段(Studydesign)。
如在制作透明质酸钠治疗颞下颌关节紊乱病疗效评价的系统评价时,该临床问题就包括:“对颞下颌关节紊乱病患者(患者),采用关节腔内注射透明质酸钠治疗其颞下颌关节紊乱病(干预措施),在与安慰剂或皮质激素的关节注射进行随机对照试验比较时(比较方法、研究手段),以临床症状和体征的变化作为评价指标(疗效指标),其疗效和安全性如何?”
系统评价的题目是其研究目的的简要体现,可以突出“干预措施”和靶向疾病“患者”两个要素。制作口腔卫生领域的Cochrane系统评价的第一步是向CochraneHealthGroup申请一个title,即研究题目,口腔卫生组专家将根据其研究价值和临床意义,以前是否有类似题目等做出取舍。假若研究题目符合前一个要求,但已经有其他作者发表或正在制作,则不会被批准,以免浪费申请者的精力和资源。
2.确定纳入与排除标准
在国内外文献中,涉及待探讨问题的研究可能有很多。要解决该临床问题显然不能漏掉相关的重要文献,但是也不需要纳入无关文献浪费宝贵的时间和精力。因此必须设定明确的文献纳入与排除标准。
2.1研究类型一般情况下,防治性研究的系统评价应该纳入临床随机对照试验(randommizedcontrolledtrial,RCT),有时可纳入半随机对照试验(quasi-RCT)。如果这两者数量很少或缺如,非随机的临床试验也可纳入。
2.2研究对象患者的年龄、性别等人口学特征,疾病种类与严重程度须符合研究目的。如本例中,对研究对象的规定即为“任何性别,年龄大于18岁,通过影像学和临床指标诊断为颞下颌关节紊乱病或风湿性关节炎的患者,无论其种族、社会经济地位和居住地区如何均可纳入”。
2.3干预措施应限制待研究的干预措施,但其对照方式可以有多种形式。如与安慰剂的对照,对照组仅接受与治疗组等同的基础治疗;与已知有效药物或处理的有效对照;不同剂量或不同给药方式之间的对照。试验组与对照组除了干预措施不同,其他的处理措施应保持一致。
2.4结局指标结局指标应当是在广泛阅读相关文献以及临床经验的基础上确立。结局指标分为主要指标和次要指标。前者为临床上最常用的、足以敏感反映主要疗效变化的指标,也是分析结果时的主要参考指标,数目尽量不超过3个,最好包含反映药物不良反应或不良事件的指标。次要指标是指与主要指标连带相关的有一定临床及社会意义的的其他指标,如生命质量的变化及临床经济学指标等。不同研究中治疗时间长短不一时,可依随访时间的长短,将结局指标分为短期、中期及长期指标分别进行评价。如本例中,我们以3个月为界点,将指标划分成长期与短期,这样对透明质酸钠的治疗效果评价更为准确。
3.撰写计划书
完成上述步骤后,可以着手撰写计划书。Cochrane协作网要求所有的Cochrane系统评价在其title的申请被批准后,在一定时间段内需完成计划书protocol。对准备发表到其他专业杂志上的系统评价而言,通过撰写计划书可以理清思路,为完成系统评价做好准备工作,也方便其他专家评议及提出建议。我们的体会是,计划书的撰写有助于减少评价过程中发生严重偏倚的可能性,从而影响到结论的论证强度。因此,无论是进行何种系统评价,计划书的撰写都很有必要。计划书中要详述研究目的、文献纳入排除标准、系统评价各个步骤的具体实施方案及如何避免或减少偏倚因素的影响等。Cochrane口腔卫生组对计划书有严格的内部专家评审制度和外部专家评审制度。申请者需要回答专家的询问,并按专家提出的问题和建议修改计划书,修改稿通过评审后将发表在国际循证医学协作组的光盘版和网络版杂志CochraneLibrary(按月出版)上。下一步的工作原则上须遵照计划书所制定的步骤进行。
4.构造检索策略,检索文献
系统评价需要进行全面而系统的文献检索,主要包括电子检索、手工检索、向作者查询补充信息,了解有无未发表的文章等情况,向相关领域的专家学者及药品等的生产厂家了解有关干预措施的更多信息。为避免发表偏倚及语言偏倚,检索结果应当尽可能全面,并且对文献的发表语言及、进行国家和发表时间等不宜有过多的限制。
电子检索包括检索Medline、PubMed、EMbase、中文的CBM等数据库。可以采用主题词和自由词相结合的形式构造检索策略。检索RCT时,可以将自拟的检索式同Cochrane协作网推荐用以筛查RCT的检索式(详见Cochrane协作网出版的系统评价者手册5.0.1第6章)相结合,最终形成完整的检索策略。
除以上数据库外,还应检索CochraeneLibrary、Cochrane口腔卫生临床试验注册库及世界卫生组织国际临床试验注册平台(WHOICTRP)等,以便了解是否有正在进行的相关临床试验,可否获取未发表的临床试验的结果。
电子检索的全部信息都需保存完善,以供复查。
手工检索即是通过阅读专业杂志、会议论文摘要等,查找符合纳入标准的文献。手工检索可补充电子检索的疏漏,应引起重视。
从已纳入文献的参考文献中检索也是重要的手段。高质量的论文一般会引用丰富的相关研究文献,其中可能含有电子检索和手工检索都未能检出的有价值的文献。
5.确定纳入文献
文献的纳入须根据已制定的纳入与排除标准,由至少两位研究者独立地进行。通过对检出文献的标题、摘要及全文依次阅读,可逐步排除一些不相关的文献,而对可能纳入的文献,务必在阅读全文时重视其材料与方法部分的评判。两位研究者在确定是否纳入的意见上不一致时,需分析原因,如系原文描述不清,可与原文作者联系以获悉相关资料,并与第三位研究者进行讨论。二者的一致性程度可通过Kappa检验计算。在纳入过程中,应去除重复的研究,否则会影响Meta-分析的结果。对于某些可能为同一研究的文献,应当向作者发信以确认。
6.偏倚风险和方法学质量的评价
偏倚(bias)是指由于方法学的缺陷导致的试验结果与真实值之间的差异。在系统评价中,对文献的偏倚风险或方法学质量的评价十分必要,因为它会对系统评价结论的质量以及可信程度产生较大的影响。
对于研究结论的真实性,用偏倚风险来评估似乎比方法学质量(methodologicalquality)或报告质量(reportingbias)更为准确。例如比较不同外科方法治疗颞下颌关节疾病的系统评价中,因为纳入的随机对照试验未能采取双盲的方法,就简单地认为这类临床试验“方法学质量低”显然是欠准确的,但也不能肯定此文“无偏倚风险”;同样,一篇“报告质量不高”的文章,其结论仍可能具有一定真实性,而偏倚风险较高的文献其结论的真实性则一定会大打折扣。由此可见,偏倚风险对文献结果甚至系统评价结果的真实性影响更大。
临床随机对照试验的设计、实施、分析及报告过程中可能存在下列偏倚:选择性偏倚、无应答偏倚、信息偏倚(测量偏倚)、报告偏倚以及混杂偏倚等。文献报道中评价偏倚风险的方法有多种,常用的有基于过程的评价表(domain-basedevaluation),Jadad量表,改良Jadad量表等。报告质量的评价方法则以Consort声明最为著名。本文将着重介绍domain-basedevaluation。
文献偏倚风险的评价应该由至少两名研究者采用统一的标准独立进行,当意见不一致时可引入第三位研究者讨论确定。研究者需分别对随机方法、随机隐藏、盲法、结果完整性、选择性报告以及其他偏倚进行评价。
6.1随机方法
●恰当的随机方法绝不是随便冠以“随机”二字,作者需明确描述随机分配患者的方法。随机方案的产生只是受机遇的影响,不能人为预测,因而能使试验组和对照组的基线水平处于一致。尽管简单的随机方法如掷骰子、抽签也可达到随机目的,但由于不易控制试验组和对照组样本大小,故不能很好地用于临床随机对照试验;随机数字表或统计学软件产生区组随机方案更为可行。
●不恰当的随机方法如所谓的“半随机”方法,依就诊顺序交替纳入试验组和对照组,以出生日期、入院日期的奇偶数决定患者被何组等。
●随机方法不明确:未明确描述患者分配的方法。
6.2随机隐藏
●随机方案妥善保管且在分配患者之前不为患者和试验实施者所知,如中心随机,试验前由第三者利用外形相同的容器存放试验药或对照药,试验者按序号分配给顺序纳入的病例;
●不恰当的随机隐藏如开放式的随机分配方案,实际上是随意分配并且不可能做到隐藏。
●当作者未能说明随机隐藏的方法时则记为不清楚。
6.3盲法
●包括对患者、干预实施者以及检查者的盲法设置。
●恰当的盲法如三盲或双盲,若采用单盲或不盲则必须说明理由,并且证明其未引起结果偏倚;
●不恰当的盲法即当一方不盲时会对试验结果的评估造成偏倚(如某研究报道了最大张口度这一测量指标,若仅有患者被设盲,观察者可能会夸大试验组的测量结果);
作者对盲法未明确描述则记为不清楚。
分析基线水平、随访情况对文献评价也很重要。当然,统计学方法的评价也不容忽视,统计学方法若是选择和运用不当的话同样会导致错误的结论。
7.数据提取
数据的提取是进行Meta-分析以及对结果指标予以系统评价的基础工作,需采用根据具体研究特点设计制作的数据提取表。其基本项目应包括被纳入文献的设计和试验方法、患者情况、干预措施及结局指标等一系列内容。数据提取表格基本项目见表1,供读者参考。
提取结果数据时会遇到多种情况,原则上应能详尽而准确地反映原始资料情况,特别是原文作者已经进行了统计分析时,应记录其分析结果,如95%可信区间、假设检验的统计量及其对应的P值等。若存在多个时间点重复测量的结果,可根据数据合并的需要选取能合并比较的时间点录入资料。如在测量透明质酸钠短期效果和长期效果时,我们只选取了1个月和6个月的数据。必要时可向作者致函以明确其采用的测量方法及相应具体数据。
8.数据分析
数据分析是定量系统评价的重要环节,主要是运用Meta-分析将多个研究中相同变量的结果合并。目前用于Meta-分析的数据合并软件主要有RevMan、Stata、ComprehensiveMetaAnalysis等。Cochrane协作网推荐使用的RevMan软件界面友好,菜单式选择分析方法,输入数据后即可直接得出结果及相应的森林图。
8.1异质性分析文献间的异质性主要表现为三个方面:临床异质性、方法学异质性和统计学异质性。临床异质性即各研究在所纳入患者的基线情况、干预情况之间的差异;方法学异质性则指各研究所采用的随机方法、盲法、结局指标及其测量方法等的差异;统计学异质性就是各试验治疗效果之间的差异。
临床异质性和方法学异质性的分析为描述性的,若各研究间的两种异质性较大,则应排除对异质性影响最大的的文献。RevMan中,对统计学异质性的分析默认采用卡方检验,多用I2统计量表示分析结果。当I2为0~40%,表示各研究间的统计学异质性可以忽略;I2为30%~60%时,说明各研究之间可能存在一定的异质性;I2为50%~90%时,可认为各研究之间有较明显的异质性;I2大于75%时就可以认为各研究之间有相当大的统计学异质性。当产生明显的异质性时,可运用以下方法分析和处理:(1)分析异质性的来源,针对原因寻求解决办法;(2)检查提取与输入数据的环节是否存在错误;(3)当研究存在临床或方法学的异质性时,可分别对不同临床情况进行亚组分析。如本实例中,7个研究比较了透明质酸钠与安慰剂关节腔内注射对患者临床体征的改善情况。然而其中仅有4个研究采取单纯的关节腔内药物注射,另外3个则使用关节灌洗配合关节腔内注射,研究间存在明显的临床异质性。因此,我们将单纯关节腔内注射和关节灌洗配合关节腔内注射作为两个亚组给予亚组分析;(4)采用随机效应模型,并与固定效应模型结果相比较;(5)排除造成过大异质性的文献;(6)取消Meta-分析。
8.2Meta-分析Meta-分析是将纳入的多个研究进行数据合并,有效增大样本含量及结果精确度的统计学方法,一般采用固定效应模型或随机效应模型进行。固定效应模型主要用于各研究之间异质性较小的情况(I2≤50%,P≥0.10),随机效应模型则主要用于各研究之间有明显异质性的情况(I2>50%,P<0.10)。不同类型的研究资料,选择的合并统计量不尽相同,例如:
8.2.1二分类变量二分类变量多采用相对危险度(relativerisk,RR)、比值比(oddsratio,OR)和危险度差值(riskdifference,RD)等作为合并统计量,其中应用RR较多,如研究事件在试验组和对照组中发生率<20%,则使用OR作为效应量估计值,而研究事件在试验组或对照组中发生率为0时考虑使用RD。
8.2.2连续性变量合并连续性数据时,多采用加权均数差(weightedmeandifference,WMD)和标准化均数差(standardmeandifference,SMD)作为合并统计量。当各研究对于同一变量采取相同或相似的测量方法和单位时,应采用WMD作为合并统计量;如若采取了不同测量单位,或者各研究之间的均值差异较大时,则可以使用SMD。
文献同时报道试验组和对照组在基线时及试验完成时的两组数据时,若各组基线指标相对一致,可直接输入试验完成时的均值及标准差,也可计算干预前后相应变量变化的差值及其标准差输入。
8.2.3合并连续性变量与二分类变量对同一变量的测量,有的研究可能采用二分类变量,而有的则采用连续性变量。在一定情况下,可以将SMD与OR进行转换,进而将连续性变量与二分类变量合并。例如以SMD作为合并统计量时,二分类变量可通过下述公式转换为SMD表达:
8.3敏感性分析Meta-分析结果的稳定性和可靠性可借助敏感性分析的方法推断。若敏感性分析结果与Meta-分析结果无显著差异,则可推论Meta-分析的结果稳定,可信度高;反之,则表明该Meta-分析结果稳定性差,可靠性较低,给出结论时应当谨慎。可对影响结果真实性与稳定性的主要因素予以敏感性分析,分析方法如排除偏倚影响较大、方法学质量较低的文献后进行Meta-分析,应用不同的研究模型进行分析,以及不同临床情况的亚组分析等。
8.4森林图的阅读与解释Meta-分析可用森林图表示结果。完整的森林图包括标题、结果名称、研究名称、比较的数据、权重、统计量、森林图形和假设检验结果等。各研究所对应图形的中点即为所选统计量的均值,其面积大小表示该研究在Meta-分析中的权重,横线长度表示95%可信区间(95%CI)的大小。图形中的垂线又称无效线,代表95%CI范围的横线与其相交时,说明该研究结果无统计学意义。下方的菱形代表各研究合并统计量的均值及其95%CI范围。横坐标表示统计量大小,在横坐标线下方无效线的一侧注明“有利于治疗措施”,另一侧则标注“有利于对照措施”。
(实习编辑:徐润兰)