2021-04-09:一致性指数C指数
什么是一致性指数?
C-index的英文名称是concordance index,中文翻译为concordance index。最早由范德堡大学生物统计学教授Frank Harrell Jr 1996提出,主要用于计算生存分析中COX模型预测值与真实值的区分度,实际上类似于大家熟悉的AUC。广泛用于评估肿瘤患者预后模型的预测精度。一般评估模型主要有两个方面。一种是模型的拟合优度,常用的评价指标有R平方,-2logL、AIC、BIC等。
另一个是模型的预测精度,顾名思义就是模型的真实值与预测值的差值、均方差和相对误差。在临床应用中,更多关注的是预测精度,建模的主要目的是预测,C指标属于模型评价指标中的预测精度。
C指数的计算方法是将研究数据中的所有研究对象随机配对。以生存分析为例,如果两个病人中有一个病人的预测生存时间比另一个病人长,或者生存概率高的那个病人的预测生存时间比另一个病人长,就叫预测结果与实际结果一致,就叫一致。
计算c指数= k/m。
从上面的计算方法可以看出,C-index在0.5到1之间(随机配对的情况下,一致和不一致的概率正好是0.5)。0.5完全不一致,说明模型没有预测功能,1完全一致,说明模型的预测结果与实际情况完全一致。一般来说,C指数在0.50-0.70时精度较低,在0.71-0.90时精度中等。而高于0.90就是高精度,有点类似于相关系数。
仅仅从数字C-index来衡量准确率是高还是低还是很难的,所以人们想用一个统计检验来说服和证明这个水平,就像在筛选基因差异时仅仅看差异的倍数来判断表达差异太武断一样。此时,引入Bootstrap技术来检验预测模型的准确性。Bootstrap是非参数统计中一种重要的统计方法,用来估计统计量的方差,进而估计区间。
Bootstrap方法的核心思想和基本步骤如下:
(1)采用重采样技术,从原始样本中提取一定数量的样本,这个过程允许重复采样。
(2)根据提取的样本计算给定的统计量t。
(3)重复上述n次(一般大于1000),得到n个统计量t..
(4)计算n个统计量t的样本树方差,得到统计量的方差。
另外,如果数据集很大,可以按照不同的比例拆分,一部分用于建模,一部分用于验证。交叉验证,如5倍,10倍等。
虽然看起来很复杂,但其实这些事也有人做过。R中有可以直接计算一致性指数的包:Hmisc和compareC,这两个包都可以计算c-index。