在体育、医学、生物学等领域中,广泛使用骨龄来评价儿童少年的发育程度。因此,检验骨龄评价的可靠性,不仅对评价方法的方法学有深入的了解,更重要的是能够对骨龄评价结果做出正确的估价,提高应用实践的工作质量,增强不同评价者之间评价结果的可比性。
和任何科学实验方法一样,骨龄评价方法也存在有系统误差和随机误差。g-p图谱法和tw计分法是国际上应用非常广泛的骨龄评价方法。人们在长期的临床应用过程中,也对这两种方法的可靠性进行了广泛的研究[1, 2]。tanner et al.根据可靠性研究结果,对tw1方法进行了修改,去掉了一些评价困难的手腕骨发育等级,并分别建立了rus骨(桡尺骨、掌指骨)和腕骨的评价标准,提高了tw方法的读片可靠性[3]。
在中国儿童生长发育加速长期趋势的背景环境下,我们参照tw3方法修订了中国人手腕骨发育标准,并根据体育领域的需求,提出一种新的rus-chn评价方法。因为tw2-rus方法的可靠性已经有较多地研究,所以本文主要检验《中国人手腕骨发育标准—中华05》的rus-chn以及tw3-c腕骨成熟度评价的可靠性。
1.材料与方法
1.1 检验样本
使用75名正常儿童(骨龄在3岁-18岁)左手腕后前位x线片进行读片可靠性检验。因为腕骨发育成熟较早,所以在排除腕骨发育成熟的儿童后,腕骨的读片可靠性检验的儿童(骨龄3岁-13.5岁)样本为46名。
1.2 骨龄评价者
共有11名(其中1名为修订标准的读片员)评价者参加可靠性检验,根据下述条件将评价者分为三类:
有经验者:从事骨龄评价工作在5年以上,曾经参加原《中国人骨发育标准-chn法》培训1次以上,平均每年读片数量在1000例以上者。
较有经验者:从事欧洲杯买球平台-欧洲杯投注网址工作在3年以上,曾经参加chn法培训或有自学经历,平均每年读片数量在1000例以下者;
无经验者:无骨龄评价经历者;或使用g-p方法读片者;或虽然参加过原《中国人骨发育标准-chn法》培训或自学,但日常读片数量较少者。
根据参加研究的评价者的基本情况,2名评价者(1,2号)为有经验者,2名评价者(3、4号)为较有经验者,6名(5、6、7、8、9、10号)评价者为无经验者;0号评价者为制订标准的读片员。
1.3 读片检验过程
所有评价者集中培训3天,由制订《中国人手腕骨发育标准-中华05》的读片员讲解rus-chn法和tw3-c腕骨发育等级的定义,然后各评价者根据骨发育等级文字描述与图示进行学习,使用统一的观片灯练习读片(每人的读片数量约200张左右),并交流和讨论。第四天,在无儿童年龄、性别资料的情况下,11名评价者(p0-p10)使用rus-chn法以随机顺序独自阅读75名正常儿童的x线片,其中7名评价者(0、1、2、4、5、6、8号)同时评价tw3-c腕骨发育等级。
20天后,通过邮寄资料,各评价者(7号评价者因故未重复评价)使用相同的评价方法,在一天时间内独自重复阅读同一组儿童的手腕部x线片。
1.4 可靠性检验方法
1.4.1 手腕骨发育等级的重复性:计算每名评价者本人重复读片、以及与标准制订读片员之间的手腕各骨发育等级相同例数的百分数。
1.4.2 重复读片的系统误差和随机误差:以重复读片的骨龄平均数差值,比较评价者内和评价者间骨龄评价的系统误差;以重复读片的骨龄差值计算一次读片骨龄差值的标准差和95%的置信区间,比较评价者内和评价者之间骨龄评价的随机误差。计算公式如下:
±t0.05 ×
其中d为重复读片的骨龄差值;n为x线片数量;t0.05为显著性为0.05水平时的t值。
根据以往文献对tw2方法的检验结果,我们取±0.60岁作为单一读数的95%置信区间是否适宜的分界值。
2.4.3 统计分析:使用spss11.0应用软件统计分析。采用多个相关样本非参数检验,检验评价者间各骨等级相同例数百分数的组间差异显著性,如差异显著,则以两相关样本非参数检验来检验两两评价者之间的差异显著性;使用配对t检验,检验评价者本人重复读片骨龄平均数的差异显著性;以多变量方差分析检验评价者与标准制订者之间骨龄读数的组间差异显著性,如果方差分析存在显著性,则以配对样本t检验来进一步检验各评价者与标准制定者平均数间的差异显著性。
2、结果
2.1 评价者内的可靠性
各评价者使用rus-chn法重复读片,等级相同例数百分数的平均数在63.4%-82.2%之间,表1。根据表1和表2,可将评价者分为三类:一类是有经验者(1、2号)、较有经验者(3、4号)和部分无经验者(5、10号),等级相同的重复率相似,在78.0%-82.2%,相互之间的差异大都无统计学显著性;二类是一名无经验者,等级相同的例数为74%,与6号和8号之间的差异显著;三类是两名无经验者(6、8号),等级相同的例数在63.4%-67.6%,与上述评价者的差异均有统计学的显著性,而二者之间差异无显著性。重复读片不一致的等级主要出现在相邻等级上,相差2个等级的例数很少,相差2个等级例数的百分数的平均数在1.3%-2.9%。
各评价者重复读片,骨龄平均数差值的绝对值在0.01岁- 0.24岁之间。虽然2号、3号重复读片的骨龄平均数差异有统计学的显著性,但是骨龄平均数差值的绝对值很小,仅8号评价者的系统误差较大。各评价者重复读片,单一读数的95%置信区间在±0.40岁-±0.76岁,除了6号、8号、9号评价者以外,大部分评价者本人重复读片的随机误差在±0.6岁以下的适当范围之内(表1)。
7名评价者参加了tw3-c腕骨评价的可靠性检验。由表3和表4可见,有经验者(1、2号)的重复性较高,82.1%-83.2%,与其它评价者的差异显著;较有经验者(4号)和无经验者(5、6、8号)的读片重复性在65.6%-74.4%,相互之间的差异无显著性。多数评价者相差2个等级的例数减少,少数评价者(6、8号)相差2个等级的例数增加。仅2名无经验者(5号、8号)重复评价的腕骨骨龄平均数有显著性差异,分别有评价偏低和偏高的系统误差。各评价者单一读数的95%置信区间为±0.32岁-±0.71岁,有5名评价者的随机误差在±0.60岁以下,2名无经验者在±0.60岁以上,分别为±0.68和±0.72。
2.2 评价者间的可靠性
由表5可见,各评价者与制订标准读片员之间,rus-chn法骨等级相同例数百分数的平均数在61.3%-77.3%,评价者间的等级重复性均低于其评价者内的重复性。根据表5和表6,也可以将评价者间的重复性分为3类:一类是有经验者(1、2号)、较有经验者(3、4号)和1名无经验者(5号),其评价者间的重复性在75%左右(73%-77%),相互之间的差异无显著性,而与其余评价者之间的差异大都有显著性;二类是无经验者(9、10号),评价者间的重复性在70%左右(69%-70%),二者之间的差异无显著性,但与第三类无经验者(6、7、8号)之间的差异大都有差异显著性;三类是部分无经验者(6、7、8号),评价者间的重复性在65%左右(61%-66%),相互之间大都无差异显著性。
各评价者与制订标准读片员间的骨龄平均数差值的绝对值在0.10岁- 0.25岁,仅5、7号评价者骨龄均数差异有显著性,其系统误差分别为-0.15岁和-0.25岁,表5;各评价者间的随机误差(单一读数的95%置信区间)为±0.42岁—±0.96岁。评价者间等级重复性在75%左右的5名评价者(有经验者1、2号、较有经验者3、4号以及无经验者5号) 随机误差在±0.60岁以下(±0.41—±0.58);评价者间等级重复性在61%-70%的评价者(无经验者)的随机误差大于±0.60岁(±0.64-±0.96)。
评价者间腕骨等级的重复率在77.4%-88.0%,普遍高于rus-chn方法。根据表7和表8,也同样可将评价者间的重复性分为3类:一类是有经验者(1、2号)和1名较有经验者(4号),评价者间等级相同例数的平均数在86%-88%,三者之间的差异无显著性,但与其它评价者大都差异显著;二类是等级相同例数的平均数在82%-84%的无经验者(5号、6号);三类是一名无经验者(8号),等级相同例数的平均数在77%,与其它评价者的差异均显著。
5号和8号评价者的骨龄均数与制订标准读片员之间的差异达到显著性水平,分别有高评和低评的系统误差。4名评价者(有经验者、较有经验者以及1名无经验者)的随机误差在±0.60岁以下,2名无经验者在±0.60岁以上。
3 讨论
骨龄能够评价正常和异常的生理发育,应用范围广泛,因此欧洲杯买球平台-欧洲杯投注网址的可靠性受到了研究者和应用者的关注。国际间某些有经验者[ 4, 5, 6, 7]tw2-rus法的评价者内和评价者间的等级重复性分别为82.7%- 91.4%和74.4%-80.5%;tw2腕骨评价者内和评价者间的等级重复性分别为80.6%-92.3%和74.1%-88.0%;tw2-rus方法的评价者内和评价者间的随机误差分别为±0.42岁-±0.50岁和±0.58岁±0.76岁;tw2-腕骨评价者内和评价者间的随机误差分别为±0.48岁-±0.72岁和±0.82岁-±0.84岁。与这些研究结果相比,本研究中的有经验者接近或达到了国际间的骨龄评价可靠性水平,但是大部分无经验者经过一次读片训练后的读片可靠性仍然较低。
骨发育等级是根据顺序出现的成熟度指征将骨发育的连续过程所划分出的若干阶段,在每个阶段中,虽然骨的发育在继续,但是在骨龄评价中骨的发育等级不变。因此,一个成熟度指征未出现与出现的这个阶段(等级的交界处)的评价较为困难,这可能是影响重复性的主要因素之一。rus-chn法所评价的骨的块数和tw3-rus相同,但是评价等级的数量由103个增加到了150个。在同样的骨发育过程中等级数量增加就增加了“等级交界处”,因而增加了骨发育等级不一致的例数。但是,虽然rus-chn法增加了骨发育等级,可能降低等级重复性的同时,也减小了不同骨等级的得分差,因而也减小了等级读数不同对骨龄数值的影响,也就降低了rus-chn骨龄评价的随机误差,因而大部分评价者一次读片骨龄的95%置信区间达到了国际间tw2-rus方法的可靠性水平。
计分法分别评价每块骨的发育等级,当一块骨等级评价不一致时,得分误差对于骨龄数值的影响较小,但如果评价者有普遍高评或低评的倾向时,将随着骨等级不一致的骨块数的增加而加大骨龄评价的系统误差。例如,本文的5号和8号评价者,腕骨评价者内等级重复率有低评和高评的倾向,而在评价者间的腕骨可靠性检验中,和标准制定读片员之间的等级重复率又分别有高评和低评的倾向,都出现了显著的系统误差。另外,不同骨的权重差异,或在不同年龄段出现的等级不一致,对于骨龄评价的系统误差和随机误差的影响是不同的。所以,在检验中仅等级重复率不能完全说明骨龄评价的可靠性。在应用实践和研究工作中,过大的系统误差和随机误差有可能掩盖了事实真相而得出错误的结论。因此,在定期的可靠性检验中,不仅要检验评价者内和评价者间的重复性,还应当计算检验系统误差和随机误差。
在骨龄的应用越来越广泛的情况下,无论使用哪种方法,定期进行可靠性检验是很有必要的。可靠性检验不仅可以发现骨等级评价重复性较低的骨,通过进一步的学习与训练提高重复性,还可以对骨龄评价结果的系统误差和随机误差得出正确的估价。评价者间的可靠性检验对于保持不同使用者、不同单位、不同系统骨龄评价工作的一致性和可比性,提高应用工作质量有重要的作用。
相关文章推荐
《中国人手腕骨发育标准—中华05》-tw3-c rus、tw3-c腕骨和rus-chn方法
参考文献
[1] acheson r. m., joan h. vicinus and gillian b. fowler studies in the reliability of assessing skeletal maturity from x-ray. part ii. the bone-specific approach. hum biol,1964,36:211-228.
[2] acheson r. m., joan h. vicinus and gillian b. fowler studies in the reliability of assessing skeletal maturity from x-ray. part iii. greulich-pyle atals and tanner-whitehouse method contrasted. hum biol,1966,38:205-218,.
[3] tanner j. m. and r. h. whitehouse et al. assessment of skeletal maturity and prediction of adult height (tw2 method).london: academic press, 1983.
[4] wenzel a. and b. melsen replicability of assessing radiographs by the tanner and whitehouse-2 method. hum biol,1982,54(3):575-581.
[5] bull r. k, p. d. edwards, p. m. kemp et al. bone age assessment: a large scale comparison of the greulich and pyle, and tanner and whitehouse (tw2) methods. arch dis child, 1999, 81:172-173.
[6] beunen g. and n. cameron the reproducibility of tw2 skeletal age assessments by a self-taught assessor. ann hum biol, 1980,7(2): 155-162.
[7] medicus,h.,a.m.gron and c.f.a.moorees reproducilibity of rating stages of osseous development. am j phys anthropol,1976,35:359-372.