|
生物统计学本科教学可扩展普适性的内容
赵秀举,41*3915,dzrdez@163.com,绿树,西岸。
学科传承创新一脉相承,生物统计也是如此。考察过去、现在和未来的历史发展,对比高中、本专科、研究生(硕博)、专家学者的实力,来探究生物统计学本科教材可扩展普适性的内容。
历史发展看,统计学是生物统计学的过去,流行病学+生物组学是生物统计学的现在,生物数据学是生物统计学的未来。生物统计学以高尔顿(Francis Galton)研究父子身高的回归关系而肇始(大样本,逐个单变量),之后皮尔森(Karl Pearson)、哥赛特(William Sealy Gosset)、费舍尔(Ronald Aylmer Fisher)小样本【以上本身为正态分布和基于正态分布】,再威尔科克森(F·Wilcoxin)非参数分析【不满足正态分布或不知道为各种分布】,和主成分分析、偏最小二乘等模式识别方法【多元正态分布】;目前使用人工智能之机器学习、自然语言处理、知识表示等【半模式】,助力人类基因组、蛋白组、癌症组等计划;多学科交叉形成的生物数据学,融合了(生物)统计学的假设检验和人工智能的预测发现,以任意距离和拓扑结构来度量数据,采用类脑生态理论。
描述统计学(集中趋势、离散程度、自由度)是荟萃分析(评价多人群的综合效应)的基础,荟萃分析预处理多队列数据达到整合共享。
固定效应、随机效应和混合效应也是荟萃分析的基础。
平方根转换、对数转换、反正弦转换、倒数转换是为了满足方差分析使用条件的,也可以使非独立同分布( I.I.D.)转换为I.I.D.;而非I.I.D.是大数据的常见情况。数据转换适用于小数据也适用于大数据。()
直线回归分析使用了建立回归方程、检验回归系数、预测的过程,体现了建模、验证、测试的思路(或直接使用规则进行判断)。建模、验证、测试的思路适用于小数据也适用于大数据。
我在生物统计学本科教学中谈到了多一些数据和观念,少一些方法和公式推导。观念适用于小数据也适用于大数据。
– 数据来源很重要
数值到数据/资料,知识产权
试验或者调查产生数据,方案合理可行创新
门户BAT→平台TMD、PKQ→物联网ABCD
百度、阿里、腾讯,今日头条、美团、滴滴出行,拼多多、快手、趣头条,人工智能、区块链、云计算、大数据
– 数据胜过逸闻趣事和猜测(算命)
样本量/自由度,均值/集中程度
– 变异(随机、概率、风险)无处不在
离散程度,异常值/离群点
– 小心潜在变量
混杂因素,间接变量,第三人
– 统计分析是为了想对策(决策)、了解情况(评议)、改进或选择。
– 数据反映社会价值
我在生物统计学本科教学中谈到了使用描述统计学(集中趋势、离散程度、自由度)代替原始数据进行统计推断。原始数据的运算,量大时候耗费时间较长;原始数据的通信,可能泄露隐私。
聚类分析对样本量n和变量p的数目关系没有要求,小数据统计学要求样本量n>>变量p,而主成分分析、偏最小二乘等模式识别方法要求样本量n<<变量p,聚类分析(系统聚类、k邻、鲁汶社区)适用于小数据也适用于大数据。
https://mp.weixin.qq.com/s/hKu3Wx0XSDXxhmxgoGglPQ
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-3-29 00:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社