摘要
本文是介绍新骨龄标准-《中国人手腕骨发育标准-中华05》系列文章的第12篇。和任何科学实验方法一样,骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性,不仅对评价的方法学有深入的了解,更重要的是能够对骨龄评价结果做出正确的估价,增强不同评价者之间评价结果的一致性,提高实践应用的工作质量。
关键词:骨龄,骨龄评价,骨龄读片质量,骨龄评价质量控制,中国人手腕骨发育标准-中华05,rus-chn
录入日期: 2010/2/13
和任何科学实验方法一样,骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性,不仅对评价的方法学有深入的了解,更重要的是能够对骨龄评价结果做出正确的估价,增强不同评价者之间评价结果的一致性,提高实践应用的工作质量。
一、国际间应用g-p图谱和tw法骨龄评价一致性的检验研究
骨龄评价方法的可靠性主要表现在两个的方面,一是评价者本人的读片重复性,称为评价者内的重复性;二是多名评价者之间的读片重复性,称为评价者间的重复性。
g-p图谱法和tw计分法是国际上应用非常广泛的骨龄评价方法。二十世纪六十年代,巴黎国际儿童中心在组织协调欧洲8个国家的儿童生长研究时,曾经对g-p法和tw1方法进行了系统的比较研究(acheson et al., 1963, 1964, 1966)。来自不同国家的6名评价者,使用g-p图谱和tw1方法评价50名2~18岁儿童的手腕x线片,结果发现g-p方法的系统误差较小,tw1方法的随机误差较小;但如果排除了腕骨,则tw1方法的系统误差明显下降,与g-p方法的差异显著性消失。比较研究的结果引起了tanner et al.的注意,在1975年对tw1方法进行了修改而提出tw2法。在tw2 法中取消了评价困难的发育等级(桡骨、尺骨和头状骨、三角骨、月骨、舟骨、大多角骨和小多角骨的最后一个发育等级),以提高读片可靠性。
tw2方法的原作者(tanner et al., 1994),以及长期从事儿童生长发育研究的工作者(beunen et al., 1980; tarabger et al., 1976; wenzwl and melsen, 1982)以tw2-rus方法重复读片,等级相同的例数在81%~94%左右,骨龄读数的95%置信区间为±0.5到±0.6岁;使用tw2–carpal方法,评价者内等级相同的例数在80.6%~92.3%,骨龄读数的95%置信区间为±0.48岁至±0.72岁。评价者间的读片重复性较低,tw2-rus和tw2-carpal方法的评价者间的重复性分别在74.4%~80.5% 和74.1%~88.0%。但是,评价者间的重复性在不同个体间也有很大的差异,比利时的beunen g.(1980)通过自学掌握tw2方法后,与tw2方法原作者whitehouse r.h., cameron n.进行了比较研究,以tw-20方法重复阅读112张x线片,评价者之间骨发育等级相同的例数在83%以上。但在baughan et al.(1979)和medicus et al.(1971)的研究中,2名或3名评价者间重复读片的一致性则较低,tw-rus骨在76%~82%,腕骨在72%~74%之间。
二、《中国人手腕骨发育标准-中华05》 rus-chn法和tw3-c carpal法的读片可靠性检验:
在国内,《中国人手腕骨发育标准-中华05》课题组首次对骨龄评价方法可靠性进行了较为全面的研究(张绍岩等,2006)。他们根据从事骨龄评价工作年限、是否参加过读片培训、以及每年阅读x线片的数量将11名评价者分为三类:
有经验者:从事骨龄评价工作在5年以上,曾经参加原《中国人骨发育标准-chn法》培训1次以上,平均每年读片数量在1000例以上者。
较有经验者:从事骨龄评价工作在3年以上,曾经参加chn法培训或有自学经历,平均每年读片数量在1000例以下者;
无经验者:无骨龄评价经历者;或使用g-p方法读片者;或虽然参加过原《中国人骨发育标准-chn法》培训或自学,但日常读片数量较少者。
所有评价者集中培训3天,然后在不知儿童年龄、性别的情况下,11名评价者使用rus-chn法以随机顺序独自阅读75名正常儿童的左手腕部x线片,其中6名评价者同时评价tw3-c carpal法的骨发育等级。20天后,所有评价者使用相同的评价方法,在一天时间内独自重复阅读同一组儿童的手腕部x线片。检验结果如下:
1、评价者内的可靠性:
(1)rus-chn法:
各评价者使用rus-chn法重复读片,等级相同例数的百分数平均在63.4%~82.2%之间。重复读片不一致的等级主要出现在相邻等级上,相差2个等级的例数很少,相差2个等级例数的百分数的平均数在1.3%~2.9%。根据重复率可将评价者分为三类:
有经验者、较有经验者和部分无经验者,等级相同的重复率相似,在78.0%~82.2%;
1名无经验者,等级相同的例数为74%;
2名无经验者等级相同的例数在63.4%~67.6%。
所有评价者骨龄读数的95%置信区间在±0.40岁~±0.76岁,除了几名无经验者外,大部分评价者本人重复读片的随机误差在±0.6岁以下的适当范围之内。
(2)tw3-c carpal法:
6名评价者参加了tw3-c carpal法的可靠性检验。也可将评价者分为三类:
有经验者的重复性较高,82.1%~83.2%;
较有经验者和部分无经验者的读片重复性在72.1%~74.4%;
2名无经验者等级相同的例数在65.6%~70.1%。
所有评价者骨龄读数的95%置信区间为±0.32~±0.71岁,有5名评价者的随机误差在±0.60岁以下,2名无经验者在±0.60岁以上,分别为±0.68和±0.72,分别有评价偏低和偏高的系统误差。
2、评价者间的可靠性:
(1)rus-chn法:
各评价者与制订中华05标准的读片员相比,骨发育等级相同的例数平均在61.3%~77.3%。由此可见评价者间的等级重复性均低于评价者内的重复性。评价者间的重复性分为3类:
有经验者、较有经验者和1名无经验者,其评价者间的重复性在73%~77%;
部分无经验者评价者间的重复性在69%~70%;
部分无经验者评价者间的重复性在65%左右(61%~66%)。
在各评价者骨龄读数的95%置信区间为±0.42~±0.96岁。评价者间等级重复性在75%左右的5名评价者的随机误差在±0.60岁以下(±0.41~±0.58岁);评价者间等级重复性在61%~70%的评价者(无经验者)的随机误差大于±0.60岁(±0.64~±0.96岁)。
(2)tw3-c carpal法:
各评价者与制订中华05标准的读片员相比,评价者间腕骨等级的重复率在77.4%~88.0%,普遍高于rus-chn方法:
有经验者和1名较有经验者,评价者间等级相同例数的平均数在86%~88%;
部分无经验者。等级相同例数平均在82%~84%;
一名无经验者,等级相同例数的平均数在77%。
有经验者、较有经验者以及1名无经验者骨龄读数的95%置信区间在±0.60岁以下,1名无经验者在±0.60岁以上。
通过上述的检验说明,rus-chn法与tw3-c carpal法的可靠性与tw3-rus法基本相同。在有不同经验的评价者之间,骨龄评价的可靠性有显著性差异;有经验者读片可靠性水平较高,少数无经验者通过一次学习培训可以达到较有经验者的类似水平,但大部分无经验者可靠性水平较低。这些研究不经说明读片练习与经验是取得可靠骨龄结果的基础,而且也说明了通过可靠性检验,实行读片质量控制的重要性。
三、骨龄读片质量控制方法
(一)、评价者内的读片可靠性检验:
(1)计算重复率:应用者应选择、阅读一定数量的手腕骨部x线片(最好在50张以上),年龄范围应包括所欲应用年龄段。相隔一段时间后(应至少15天以上),重复读片,比较两次读片结果,统计相同等级例数的百分数,判断重复性。如果分别统计每块骨的重复率,还可以分析出那一块骨,或哪些发育等级的重复性较差,使用图谱法时,通过检验可发现重复读片差异较大的年龄范围,然后重点学习、练习,以提高重复性。
(2)计算骨龄读数95%的置信区间:该统计量说明了所评价骨龄的随机误差范围,计算公式为: ±t0.05√(∑d2/2n),其中∑d2为两次读片骨龄差值的平方和,n为x线片的数量,t0.05为t检验中0.05水平上的t值。
(3)系统误差:分别计算两次读片骨龄的平均数和标准差,比较平均数的差异,观察系统误差的大小,并同时进行两相关样本的差异显著性检验。
(二)、评价者间的读片可靠性检验:
在不同评价者之间重复阅读一定数量的手腕部x线片,使用上述相同的统计方法计算,即可得出评价者间的随机误差和系统误差。评价者之间的读片可靠性检验也同样重要,但在施行起来,其难度大于评价者内的可靠性检验,最好是在应用领域内,定期组织、交流经验,讨论、统一评价尺度,是提高读片质量,保证临床和科研工作可比性的重要措施。
参考文献
张绍岩, 吴真列, 沈勋章, 等. 中国人手腕骨发育标准-中华05 ii. rus-chn 和tw3-c腕骨方法的读片可靠性.中国运动医学杂志, 2006, 25(6): 641-646.
acheson rm, vicinus jh and fowler gb. studies in the reliability of assessing skeletal maturity from x-ray. part ii. the bone-specific approach. hum biol, 1964, 36:211-228.
acheson rm, vicinus jh and fowler gb. studies in the reliability of assessing skeletal maturity from x-ray.
part iii. greulich-pyle atlas and tanner-whitehouse method contrasted. hum biol, 1966, 38:205-218.
acheson rm, fowler gb, fry ei, et al. studies in the reliability of assessing skeletal maturity from x-ray. i. greulich-pyle atlas. hum biol, 1963, 35:317-349.
baughan b, demirjian a, and levesque gy. skeletal maturity standards for french-canadian children of school-age with a discussion of the reliability and validity of such measures. hum biol, 1979, 51(3): 353-370.
beunen g. and cameron n. the reproducibility of tw2 skeletal age assessments by a self-taught assessor.ann hum biol, 1980,7(2): 155-162.
beunen g. and cameron n. the reproducibility of tw2 skeletal age assessments by a self-taught assessor.ann hum biol, 1980,7(2): 155-162.
medicus h, gron am andmoorees cfa. reproducilibity of rating stages of osseous development. am j phys anthropol, 1971, 35:359-372.
wenzel a. and melsen b. replicability of assessing radiographs by the tanner and whitehouse-2 method. hum biol, 1982, 54(3):575-581.
taranger j, burning b, claesson i, et al. skeletal development from birth to 7 years. acta paediatr scand, 1976,258 (suppl.):98-108.
tanner, jm and gibbons rd. a computerized image analysis system for estimating tanner-whitehouse 2 bone age. horm res, 1994, 42:282-287.