conjugate的个人博客分享 http://blog.sciencenet.cn/u/conjugate

博文

在系统发育树与基因索引图之间利用丰度测量建立量化等价关系

已有 1315 次阅读 2021-2-27 09:02 |个人分类:变值体系|系统分类:论文交流

从2020年初起,变值体系研究团队利用量子序列测量研究项目发展出的系列高效处理模型和量化测量方法,针对 新冠病毒基因序列,从 信息熵(Information Entropy, Shannon Entropy)出发,形成四种高效处理模式:组合熵(Combinatorial Entropy),平均熵(Mean Entropy),集成熵(Integrated Entropy)和 拓扑熵(Topological Entropy),然后转变形成各自的 基因索引测度(Genomic Index)。研究聚焦于 基因索引图示(Genomic Index Map)形成了一系列的研究成果,在经过近一年的反复修改编辑之后,完成满足国际神经学杂志要求,作为首席特邀编辑针对抗击新冠病毒特刊的全部工作。

非常高兴,期待已久的 国际神经学杂志特刊(EC Neurology Special Issue)汇集的23篇论文,于2021年2月顺利上线发表!参阅链接:https://www.ecronicon.com/specialissue21_neurology.php

从前沿基因分析专家们对复杂基因序列变异精细分析的角度,威力最强大的可视化系统分析工具是系列开源软件包以BLAST(Basic Local Alignment Search Tools)为基础构造出的 系统发育树(Phylogenetic Trees)。这类分层结构化树型表示机制,是现代高级基因架构分析师们最为熟悉的精密分析工具。

尽管在特刊论文中展示出系列可视化结果,吸引着各类基因分析专家的关注,但是在现实世界中,还没有几个生物医学专家,能够习惯地观察和应用各类基因索引测度,解析基因索引图示提供极为丰富的分形聚类模式,能体现出不同层次,各类视角所特有的投影和可视化分布特征。

针对新冠病毒序列基于组合熵的分析论文,在2020年6月投稿之后,经过6个月的耐心等待,于12月中旬从杂志编辑部传回评审意见,看到期待已久的专家评议报告。

专家认为论文本身还有点意思,但是在文中仅包含处理方法,流程和系列可视化结果的简要描述,仅凭文中提供的流程和图示等简要的描述,难以确认系列图示结果的真伪。专家要求进一步提供判定系列图示结果真伪的有效信息。

为了满足评审专家的要求,除了以最新的英国新冠病毒变异株为基础,利用BLAST等前沿分析工具形成发育树,精确标记 变异点(SNV Single Nucleotide Variants)位置和变化,准备较为细致的结果表格和对应图示之外,还聚焦查阅分析系列最新的各类熵处理模型和方法,系统阅读与系统发育树相关的前沿研究论文。

这段时间的资料准备和分析修改,在近期投到Research Square最新预印本中得到充分展示。参阅论文: https://www.researchsquare.com/article/rs-31883/v4 

该论文最为关键的贡献是从系统发育研究领域之中获得合适的量化测度,精确描述基因序列群聚表现出的内蕴分布特征。

基于 丰度测量(Diversity Measure),该类参数为 玻耳兹曼熵(Boltzmann Entropy),非香农信息熵。对任意N组基因序列,定义可区分的聚类数目为M,则 该序列集合的 丰度测量 =: log2(M)。令 △ 为 系统误差界(System Error Margin),例如:△=0.0001。

任意两组基因序列 X, Y 对应的基因索引为 x,y;如果 差值(Difference) c(x,y) = |x-y| ≦ △,则两组序列 X, Y 落入同一个聚类。

对N组可区分序列,选择合适的 系统误差界序列 {△i} ,分量满足△i > △i+1 > 0, 1 ≦ i ≦ N, 从根 i=1 出发,依次划分出1~N发育树各主干,枝干到叶的精细分支数目。在给定系统中系统误差序列可以从大到小精确设定。

伴随着一串递减的系统误差界,如果存在 M, 1 ≦ M ≦ N 为 最大可区分聚类数(Number of Clusters),形成可以区分的  有界递增序列 {Qi(△i)},则 1= Q1< ... Qi ...  < QM = ... Qj ... = QN = M。其中包含两个部分 递增子序列:{Qi}, 1 ≦ i ≦ M, 不变子序列:{Qj} , M < j ≦ N, N组序列集合的丰度测量取值分布在 [0, log2(M)] 区间,前M个元素伴随系统误差递增,而后面的部分保持 Q 序列的最大值不变。

可以严格断言,满足该条件的发育树系统,最多表达为M个 层次(Levels)。利用一个单调下降的非0误差序列,配合前面上升后面持平的有限增长序列,确定基因索引图示与系统发育树之间的对应等价关系

最简单的两种情形:1. 根节点 Q1 =1, log2(1)=0, N个序列为 单聚点(Single Cluster);2. N个序列都可区分, M=N,系统达到最大值 log2(N)。每个序列都能够被相互区分,所形成的发育树最多包含 N个层次。

从组合数学的角度,在序列索引图与系统发育树之间的群聚分叉判定问题是众所周知的组合原理 鸽笼原理(Pigeonhole Principle)的特殊应用。对仅有M个鸽笼的系统,无论N的数目如何增长,最后都只能被强制地约束在M个类之中,以丰度测量为代表的系统熵,不会伴随N数目持续增长,测度被强制性地约束在 [0, log2(M)] 之间。

观察到丰度测量的 极小分布优化特征(Minimum Optimalization) 与 非平衡态系统(Non-equilibrium System) 统计分型的分析模式严格对应,属于意料之外的新发现。从群聚分类的角度,具有较大群聚序列数目的概率测度伴随熵测度与较小概率伴随的等值熵测度,从应用基础的层面是有本质区别的。

这类表征高概率测度的极小熵取值在 [0, log2(M)] 区间远离平衡态,而经典平衡态系统的最大熵 = log2(N) (在各个序列等概率均匀分布条件下获得)。

从前沿量子序列测量的角度,典型量子谐振态非平稳随机过程的概率统计分布,为福克态到亚泊松态等量子交互群聚态对应 (不同于泊松态,正态和均匀等分布特征),表现为高概率测度的极小熵。这样的测量结构,满足非平衡态系统分类统计,形成复杂树状分枝的分层结构化随机变异分化群聚。

结合玻耳兹曼熵和香农信息熵,在非平衡态系统分层结构化复杂动态交互体系之中,宏观-介观-微观-量子等自然规律 与 动态系统-分层描述-子类群聚-超精细分析等 组合数学规律完备吻合!

期待在这类复杂量化分析结构之间严格等价的基础对应关系严密建立之后,前沿先进基因索引图的系列模型和方法,及其丰富多彩的可视化索引分布图示,能够吸引更多复杂系统分析专家的关注和研究兴趣,在基础和应用的不同层面进行深入探索,为后续高质量分析和普遍应用开辟道路。



https://blog.sciencenet.cn/blog-629831-1274022.html

上一篇:Two research papers on foundation of mathematical physics
下一篇:第一本变值体系彩色精装中文专著 科学出版社正式出版发行

1 邱嘉文

发表评论 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-12-5 18:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部