|
赵秀举 dzrdez@163.com
导语
混杂因素的存在需要随机化试验,不同随机化试验的不可传达性需要数据整合共享。数据集整合共享的类脑生态基础理论,即全过程数据活动机制DCSAE:多样兼顾、环节衔接、安全共享、权责一致、生态使能。
概要
弱关联数据,存在传递性、扩展性、延迟、深度和可解释问题。为此提出生物数据学,概括其类脑生态基础理论即数据全过程活动机制DCSAE(类脑→相邻哈希和临近存储→知识分级和场景导向→原生、遍历、并发和链式程序→生态)。
内容
弱关联数据,与独立样本和强相关数据相对而言。弱关联数据,存在传递性、扩展性、延迟、深度和可解释性问题,挑战了统计学、生物信息学和流行病与卫生统计学的原理和方法。
我们1提出生物数据学,3概括其类脑生态基础理论(即数据全流程活动机制DCSAE),2倡议生物数据信息智能技术(BDIITs)融合,4兼顾深度计算、海量存储和高并发通讯,5混合事务分析处理(HTAP)与原生结合整合多样化数据,6数据环节概括为设计、采样、分析和治理(DAAG),汇总模型参数概念和公式,7概括从原始数据到类脑图数据库的决策逻辑,8明确统计学两大分支(独立与强相关数据、弱相关数据)对应关系和人工智能(AI)四类十方面,9概括多端数据共享模式KANC,10概括治理含义和立法五性(必要、合法、可行、合理、衔接),11概括生态进程和含义(物料平衡、能量守恒、简单优先),12呼吁研发者秉持开明态度、建议远缘交叉融合、希望构建数据生态系统,试图对这一挑战做点事。
1生物数据学
远缘交叉融合统计物理学、数量经济学、生物信息学、生物统计学、分析科学、流行病学、人工智能、数据学和法理学。
生物(微生物、植物、动物、人)时空多样性弱关联数据(变量、样本、时点)为对象,零假设和半模式基础上推断和发现为方法,安全发育健康营养为内容和目标。
[生物数据学进展https://mp.weixin.qq.com/s/LnV0MNmIkdRdSbybV_GBtg]
3DCSAE
DCSAE(多样兼顾,环节衔接,安全共享,权责一致,生态使能):零(无效)假设和半模式是生物(微生物、植物、动物、人)时空多样性的数据学形式。多样化弱关联数据集通过原生类脑方式(动力引擎和思想知识双轮驱动,算法和算力协调匹配)预测发现。数据环节,概括为设计、采样、预处理与分析和治理,通过应用程序接口、软件开发包、模型参数等衔接。匿名化和去标识化,对抗训练,群体学习,高性能图计算,图查询语言,混合事务分析处理等,兼顾深度计算、海量存储和高并发通讯,实现数据安全共享。以比例原则分配不同数据参与方的权利与义务、权力与职责。数据在使用中升值,不同数据参与方都能从中获益,形成数据生态系统(物料平衡、能量守恒、简单优先)。
2BDIIT
描述统计学三要素自由度、集中趋势和离散程度[生物统计学本科教材可扩展普适性的内容];数据和知识双轮驱动(知识分级数据集),算法和算力协调匹配;数据→信息→知识→智慧→智能→数据的创新闭环
4效率(计算存储通信)
相邻哈希、近临存储、分布式、拓扑结构,杰卡德相似度、遍历同时去重、多边有向无环图、广度优先,链式查询语言,实时低延迟、深度、可解释、高可视化。
5架构(原生+HTAP)
微服务、容器化、运维、持续交付,数据、引擎、算法、界面、场景层
6DAAG
特征:(融合)随机、无偏、无损微创、注释、混合(事务分析)、公平,
定义:数据集、数据库、(四代)图,可解释性、可扩展性、总拥有成本,民事权利、可持续、包容
公式:R^2、Q^2,准确性、敏感度、特异性、精确度,F、G分数
7抉择逻辑
从原始数据到类脑生态的算法抉择逻辑:自动→缺失→均匀→IID→标注→成分→聚类→分类→解释→原生→HTAP
数据预处理分析流程:特征选择→变换→个体匹配→归一化→推断发现,如Box-Cox变换→得分倾向匹配→COCONUT共归一化或meta加权→LASSO-Logistic或GBRTw或图数据库
8分支
统计学:独立、强相关→计算→帕斯卡频率→假设检验→最小二乘法→模式识别→建模推断→孤立端节点;弱相关→计算存储通信→贝叶斯先后验→半模式→极大似然法→机器学习→预测发现→云群体生态
人工智能[四大类十方面]:对象 视觉音频图像,自然语言处理(理解、生成),感觉知觉推理(人机物交互),机器人与多智能体,知识表示,方法 模式识别,机器学习, 综合 预训练模型,图数据库 治理 博弈与伦理
9KANC
在知识指导下,端数据的模型参数融合更新群体动态协调者,融合参数反馈需要的端,共享端不弱于或相当于单个最优端,产生新知识
10治理
利益冲突声明回避
拟合并解释数据
立法五性:必要、合法、可行、合理、衔接,有活力和创造
11生态
端网云边群结合,统一管理智能控制弹性调度,提供多层防护,形成标准和建议。物料平衡、能量守恒、简单优先,保持多样、相互尊重理解交流,遵守规范、自由转换。
12联系
正则化超参数,大筛子模型思想
经验贝叶斯多层模型、自助法、非参数
广义线性模型、高斯过程模型启发,结构方程模型、深度学习纽带
物理启发机器学习
统计学两大分支结合
混合效应模型、LASSO/Logistic等构建人群数据解释模型,预测危险因素进行各种疾病数据挖掘,提高健康收益,促进研发范式转变。
https://mp.weixin.qq.com/s/END3fDgmSxkOHl0b6-knlw
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 22:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社