||
第一代表观生物时钟是表观遗传衰老领域研究的“开山之作”,以加州大学洛杉矶分校(UCLA)的衰老研究专家、遗传学家及生物统计学家Steve Horvath教授,在2013年开发的第一代泛组织表观遗传时钟,也称为Horvath时钟,依托353个CpG位点构建,可适配51种组织和细胞类型,年龄预测中位绝对误差仅3.6年,打破了此前时钟的组织局限性;同年,与Horvath时钟齐名的是Hannum时钟,由加州大学圣迭戈分校(UCSD)的Gregory Hannum教授团队开发,基于血液样本的71个CpG位点构建,年龄预测平均误差为3.9年,更适用于血液样本的衰老评估。两者共同成为早期表观遗传衰老研究中应用最广泛的两大经典工具,Horvath时钟侧重跨组织通用性,Hannum时钟则聚焦血液样本场景。
以Horvath 时钟为例,可以了解检测的甲基化位点是怎样筛选确定的:Horvath 时钟 353 个 CpG 位点的筛选流程,是从大规模甲基化芯片数据开始的,经过样本/位点质控、候选池构建、弹性网正则化筛选、交叉验证优化与独立测试验证的完整流程,核心是使用82个数据集、8,000 个样本、51种组织的跨平台数据,锁定兼顾年龄预测力与组织普适性的核心位点。以下是分步骤详解:
一、数据准备与质控(基础筛选)
样本纳入:整合 82 个公开 Illumina 甲基化数据集,覆盖 8,000 个样本、51 种健康组织/ 细胞类型,排除严重病变样本,确保跨组织适用性。
芯片位点交集:以 Illumina 27K 与 450K 芯片的共同位点为基础(避免平台差异),初步得到约 2.7 万个候选位点,也就是从2.7万个甲基化位点开始。
位点质控:剔除缺失值≥10% 的位点,最终保留21,369 个高质量候选 CpG 位点作为筛选池,同时对样本进行标准化,缺失值插补:填补缺失数据,保证完整性;离群值去除:剔除异常数值,保障可靠性。
二、弹性网惩罚回归筛选(核心算法)
弹性网惩罚回归就像一把双功能智能筛子,从2万多个CpG位点里精准淘出了353个能预测年龄的核心位点:既剔除无用杂质,又稳住有效位点的关联性,让筛选结果既精准又靠谱。简单说,它一边像普通筛子那样,把和年龄毫无关联的位点直接筛掉,避免冗余信息干扰;另一边又像缓冲垫,对那些功能相似、高度相关的位点做好平衡,不随意剔除任一有效位点,最终锁定的353个位点,既够精简又能跨组织稳定预测年龄,这也是Horvath时钟实现高精准度的关键一步。
采用弹性网(Elastic Net)正则化回归,平衡 L1(Lasso)与 L2(Ridge)惩罚,实现 “特征选择 + 参数收缩” 双重目标,流程如下:
模型设定:以chronological age(日历年龄)为因变量,21,369 个 CpG 位点的甲基化β值为自变量,通过弹性网自动权衡预测精度与模型复杂度。(即:用21,369个CpG位点的甲基化 β值(能影响结果的自变量),借助弹性网模型兼顾预测精准度和模型简洁性,来推算与之关联的日历年龄(被预测的因变量)。
参数优化:通过 10 折交叉验证(10-fold CV)确定惩罚系数 λ(控制正则化强度)与混合比例 α(α≈0.5,均衡 L1/L2),最小化预测误差。
位点锁定:算法自动将无预测价值位点的系数压缩至 0,最终保留353个非零系数CpG 位点,其中 193 个甲基化随年龄上升、160 个随年龄下降。
三、模型验证与普适性确认(性能保障)
内部交叉验证:在训练集内通过多轮 CV 验证,确保353个位点在不同组织/样本中均有稳定年龄预测力,中位绝对误差(MAE)仅 3.6 年。
独立测试集验证:在未参与训练的独立数据集(如其他组织样本、灵长类样本)中测试,验证跨组织/物种适用性,相关系数(r)达 0.96 以上。
组织普适性验证:确认同一套位点可用于51种组织/细胞类型,无需组织特异性调整,成为首个泛组织表观遗传时钟。
该流程的核心创新在于:通过弹性网在高维数据中精准筛选核心位点,同时兼顾年龄相关性与组织普适性,为后续表观遗传时钟的发展奠定了方法学基础。
Horvath 和 Hannum 是表观遗传时钟(epigenetic clocks)领域两位开创性研究者,他们在2013年几乎同时独立发表了第一代DNA甲基化衰老时钟的经典论文。这两个时钟至今仍是该领域的基准模型,被列为第一代(First generation)表观遗传时钟的代表。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-1-27 13:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社