Ammunition2019的个人博客分享 http://blog.sciencenet.cn/u/Ammunition2019

博文

论文赏析 血液cfDNA甲基化标记物的发现与验证:结直肠癌早期诊断的病例对照研究

已有 3795 次阅读 2021-7-30 16:24 |系统分类:论文交流

image.png

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7856810/


本文的目的是建立多靶标甲基化诊断模型,评价血液样本ctDNA甲基化标记物在结直肠癌早期诊断中的临床价值。


名词解释:

甲基化靶向捕获测序:针对感兴趣的基因组区域设计定制探针,将探针与基因组DNA序列进行杂交,捕获并富集目标基因组DNA,然后进行重亚硫酸盐转化处理和高通量测序。

甲基化区块:由位置相近甲基化变异相关性高的CpG位点构成的DNA区段,用作肿瘤标记物。本文报道从公共数据库(TCGA和GEO)筛选出8090个甲基化区块作为结直肠癌肿瘤标记物。

支持向量机(Support Vector Machine, SVM):是一类按监督学习方式对数据进行二元分类的广义线性分类器。本文通过甲基化水平模型来区分肿瘤与非肿瘤样本。支持向量机的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。甲基化标记物很多时,每个标记物都有一个甲基化水平,要评价样本的总体甲基化水平,通常需要建模,建模的方式有逻辑回归法、随机森林法和支持向量机法等。

五折交叉验证:是利用机器学习建模时测试模型精读的方法。交叉验证的目的是为了得到可靠稳定的模型。在建立PCR PLS 模型时,一个很重要的因素是取多少个主成分的问题。用交叉验证校验每个主成分下的PRESS值,选择PRESS值小的主成分数。或PRESS值不再变小时的主成分数。例如5折交叉验证(5-fold cross validation),将数据集分成5份,轮流将其中4份做训练1份做验证,5次的结果的均值作为对算法精度的估计,一般还需要进行多次5折交叉验证求均值,例如:5次5折交叉验证,以求更精确一点。


一、试验设计与方法

1、试验设计

设计类型

前瞻性、多中心、病例-对照研究

样本类型

血浆

DNA类型

ctDNA

收集样本

合计742例

病例(CRC332例、腺瘤12例、良性病65例)

正常对照333例

患者年龄40到75岁

测试样本

测试样本集149例CRC肿瘤,149例健康对照

验证样本集67例CRC肿瘤,74例健康对照

金标准

肠镜与病理诊断

肿瘤标记物

从TCGA和GEO数据库中选取了数千个特异的CpG位点作为靶点,其中包括SEPT9的甲基化位点。最后聚焦为8090个甲基化区块,作为测序靶标。

标记物检测方法

甲基化靶向测序

临床性能参数

AUC值及其95%置信区间,特异性和敏感性

 

2、DNA提取与检测方法

样品采集

采集管

cfDNA-Streck全血样本采集管

采血量

全血8-10毫升/人

血浆制备与保存

离心

室温1600g,20分钟

保存温度

-80℃

DNA提取

DNA类型

血浆cf DNA

试剂盒

QIAamp cfDNA提取试剂盒

甲基化测序文库

brELSATM法(Burning Rock Biotech,广州,中国)

甲基化区段捕获

覆盖数千个DMR-CpG位点(包括SEPTIN9)

目标文库定量

实时荧光定量PCR法

测序方法

NovaSeq 6000上测序,平均深度为1000×靶点

原始测序数据处理工具

应用Trimmomatic、BWA-meth和samblaster等生物信息学工具进行比对和读码调用,并用作下游分析。

样本甲基化区段甲基化值矩阵

甲基化区段

将基因组上距离近、且甲基化水平高度相关的CpG位点定义为特定的甲基化区段

甲基化值矩阵

包括所有样本的8090个区段甲基化水平

 

3、样本计算

假设甲基化早期检测模型可以将诊断结果(曲线下面积,AUC)从80%提高到90%。在95%置信水平下,估计AUC的边缘误差不超过5%,计算病例组和对照组的最小样本量(结果均为106)。参数设置为:

参数

设定值

α值

0.05(一尾取0.025)

β值

0.2(本文作者没有交代β值是多少)

α值对应Z值(两尾)

Z1-α/2= Z1-0.05/2=1.96

β值对应Z值(一尾)

Z1-β=Z1-0.2=0.842

P0

80%

PT

90%

估计样本量

108

样本量计算软件http://powerandsamplesize.com/Calculators/Test-1-Proportion/1-Sample-1-Sided

image.png 

4、数据统计

变量类型

连续变量

分类变量

统计方法

平均数±SD描述

用计数(百分比)描述

差异检验

采用双尾t检验或Mann-Whitney U检验进行比较

用卡方检验或Fisher EXACT检验进行比较

建模方法

对训练数据进行五次交叉验证,并选择支持向量机作为二分类器来区分病例和对照。

阳性判断值

根据Youden指数最大化原则确定

敏感性和特异性

指Youden指数最大值对应的敏感性和特异性

ROC曲线比较

采用Hanley-McNeil方法。

显著性水平

P=0.05(双侧)。

统计分析

均采用R3.4.2进行。

 

二、结果分析

2.1 参试群体的特征描述

图1显示,956人参与选拔,742人合格,439人通过年龄条件筛选。439人进一步按照2:1随机分组(训练组和测试组),训练组298人(病例对照各149人),测试组141人(病例67例,对照74例)。

 

表1、训练数据集与测试数据集的基本特征


image.png表1显示,训练集和测试集样本数之比=2:1,均含I-IV级肿瘤样本。肿瘤与对照之间的年龄和性别均无显著差异。

 

2.2 ctDNA甲基化标记物的性能表现(训练集与测试集比较)

image.png

 

图2a是训练集结果,图2d是测试集结果。 横轴是不同的样本,纵轴是不同基因靶标。图的颜色是甲基化水平。由此构成一个数据矩阵(样本数X 8090个靶标)。根据样本多个靶标的甲基化水平进行聚类分析,可以将肿瘤样本与对照样本分开。

每个样本可求出一个预测概率,代表与该样本综合的甲基化水平(图2b和2e)。image.png

图2b图2e: 样本的甲基化水平(预测概率值)箱线图

纵轴是样本的甲基化水平预测概率值,横轴是不同肿瘤分期。预测概率值来自支持向量机方法,变量包括8090个肿瘤标记物的甲基化水平。

image.png 

图2c:训练集ROC分析图,AUC值=94.3%(敏感性89.71%,特异性96.93%)

图2f测试集ROC分析图,AUC=93.4%(敏感性86.57%,特异性97.8%).


2.3 甲基化模型在未经年龄匹配的群体中的测试性能表现


表2 ctDNA甲基化早筛模型性能分析

image.png

 

在训练集中,特异性为89.3%(83.2–93.7%),敏感性为88.6%(82.4–93.2%)。就不同分期而言,I期患者的敏感性为79.4%(62.1–91.2%),II期患者的敏感性为88.9%(77.3–95.8%),III期患者为91.4%(76.9–98.2%),IV期患者为96.2%(80.3–99.9%)。

在测试集中,特异性为91.9%(83.1–97.0%),敏感性为83.6%(72.5–91.6%)。测试组对I-III期的敏感性为82.5%(70.2–91.3%)。与训练集的结果相似。

在不做年龄匹配的总人群中,阳性率为健康对照组7.8%(5.2–11.2%),良性结直肠疾病30.8%(19.9–43.5%),晚期腺瘤58.3%(27.5–84.7%)。与SEPT9甲基化模型的敏感性(41.2%,34.6–48.1%)相比,本模型具有更高的敏感性(87.0%,81.8–91.2%)(P < 0.001),而且特异性不相上下,即90.1%(85.4–93.7%)对90.6%(86.0–94.1%)。

 

结论

基于ctDNA的多靶标甲基化面板可望用于结直肠癌早期检测,能否用于筛查有待开展更大群体的前瞻性研究。根据本研究结果,作者正在着手开始泛癌早筛研究。

 

参考文献

Discovery and validation of methylation signatures in blood-based circulating tumor cell-free DNA in early detection of colorectal carcinoma: a case–control study,Clin Epigenetics. 2021; 13: 26.

 




https://blog.sciencenet.cn/blog-3419762-1297660.html

上一篇:论文赏析:多靶点粪便DNA甲基化检测在中国人群结直肠癌筛查中的价值分析
下一篇:论文赏析: 肺结节是良性还是恶性:基于甲基化标记物和影像学特征的鉴别模型
收藏 IP: 171.113.147.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-21 19:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部