去年nature上有一篇关于白血病风险检测的文章,找了17个基因的表达量组成一个分值,然后用这个分值来划分白血病的生存周期(overall survival简称OS, event-free survival 简称EFS)。这个分值与白细胞的干细胞性有关。

介绍这篇文章主要是学习一下,作者们是从哪几个方面来说明自己找到的17个基因是在白血病中非常关键的基因。这篇文章不是article,实验存在很明显的问题。

  1. 说明CD34/CD38不能很好的区分白细胞的干细胞性。
  2. 引出他们的方法,从LSC+和LSC- (LSC leukaemia stem cell)的两类样本基因表达数据中找出密切相关的转录本。方法是cox regression model,求基因表达同生存期的相关性。
  3. 然后他们把找到的17个基因加上权重,组合成一个数值,叫它为LSC17 score。他们发现LSC17 score高的样本中病人的OS会短一些。
  4. 接下来在不同的数据集中做测试,发现不管在哪个测序技术平台上,这个结果都成立。
  5. 他们还发现相比于之前已知的几个基因突变同白血病的联系,他们的17基因可以更好的预测病人的生存周期。
  6. 同其他临床指标相比,17基因的效果也很好。
  7. 那么这个方法有什么应用呢?
    • 首先是在NanoString 平台上,可以用17基因做临床检测
    • 在白血病治疗中,干细胞移植手术中17基因可以做为协助断定病人是否可以进行移植的指标,不管怎么样只要是LSC17 score高的,临床预后都不好。作者在后面又续了一段说对于不同的数据,LSC17 score中的基因是有变化的,说明这个score还可以进行优化。(换个数据集基因就有变化,说明方法不稳定,另有在做耐药性的预测时,换了权重可以得到更好的预测结果。)
    • 预测药物响应。LSC17 score低的患者对于gemtuzumab ozogamicin有更好的响应,延长生存周期。

这个工作的特点就是做了大量了不同平台之间的比较,从芯片到测序,再到三代测序。并且很好的说明了结果的应用。

缺点也很明显,系统不稳定,17基因可能会变,权重也会变。这就说明不能用来预测,因为LSC17 score高和低,都是针对不同的数据集合来说的,没有一个统一的标准。

最后,我要感谢文章的作者,在我阅读文章时产生了很多疑问,发邮件询问作者,得到了快速准确的答复。虽然我觉得文章在预测白血病预后方面没有什么太大的应用价值,但是这个工作仍是一个对于白血病干细胞性相关基因的全面分析。从中可以学到如何从各个方面对于自己的假设做验证。 全篇内容都是用的临床数据统计分析的方法,用的做多的就是多元线性回归。

单词本

英文 中文 英文 中文
induction 感应 relapse 复发
quiescence 静止 allogeneic 异源基因
haematopoietic 造血 umbilical cord 脐带
multipotent progenitors 多功能祖细胞 granulocytes 粒性白血球
monocyte 单核 myeloid 骨髓
engraftment 植入 patient outcome 转归(病人恢复结果)
prognosis 预后 cytogenetically 细胞遗传学的
offset 抵消 mortality 死亡率