|
我之前写过《统计学科普 6:什么是好的统计学研究?》,认为统计学研究第一重要的是“与应用相关(application relevant)”,因为统计学是为服务于实际应用而存在的,不像基础数学自有内在的价值,可独立存在。统计学的应用是分层次的,其中大量存在的是用t, z, F, chi2-检验,t, z, F-置信区间, Scheffe同时置信区间等现成工具分析回归数据,我发表的3篇食品科学论文就属于这类应用(Mishra, D. K., Dolan, K. D. and Yang, L. (2011) Bootstrap confidence intervals for the kinetic parameters for degradation of anthocyanins in grape pomace. Journal of Food Process Engineering 34 (4), 1220-1233;Mishra D. K., Dolan, K. D. and Yang, L. (2008) Confidence intervals for modeling anthocyanin retention in grape pomace during non-isothermal heating. Journal of Food Science 73 (1), E9-E15;Dolan, K. D., Yang, L. and Trampel, C. P. (2007) Nonlinear regression technique to estimate kinetic parameters and confidence intervals in unsteady-state conduction-heated foods. Journal of Food Engineering 80 (2), 581-593);更高级一些的是用KM估计和Cox模型分析生存数据,用ARIMA, VAR, (G)ARCH等模型分析时间序列数据,用Krigging分析空间数据,用LASSO分析高维数据等等。再上一层楼的,就是综合运用多种现有工具,甚至提出新工具的原创性应用了,例如我之前发表的农学论文(Huang, X., Wang, L., Yang, L. and Kravchenko, A. N. (2008) Management practice effects on relationships of grain yields with topography and precipitation. Agronomy Journal 100 (5), 1463-1471)和生物信息学论文(Ma, S., Yang, L., Romero, R. and Cui, Y. (2011) Varying coefficient model for gene-environment interaction: a non-linear look. Bioinformatics 27 (15), 2119-2126)。我用的形容词是“与应用相关(application relevant)”而不是“做应用(applied)”,因为在美国统计学圈子里,applied这个字有“水”的负面含义。比如有人因为健康原因或者为了照顾家庭,在拿到终身教职(tenure)衣食无忧之后,就做应用了(became applied),意思是只会用t-检验和t-置信区间了。回到正题,统计学第一重要的是面向应用,是无须置疑的。
好的统计学研究往往使用“复杂的数学工具 ( mathematically sophisticated)”,这是第二重要的。只用简单的代数就能解决的问题多数早就解决了,即便还没解决,计算机系的优秀本科生学过两学期统计课也就能解决了。受过专业训练的统计学家,要面对的是复杂数据的分析,统计推断,预测。数据的复杂性可以表现为1)形式上的高维/超高维(high dimension/ultra high dimension),缺失与截断(missing/truncated)等;2)结构上的非线性关系(nonlinearity),异方差性(heteroscedasticity),多重共线性性(multicolinearty),异常值(outliers),函数型乃至物体型(functional/object data),分布域不规则(irregular domain),时空相关性(spatial/temporal correlatedness),非平稳性(nonstationarity)等;3)概率分布上的厚尾性(fat tail),长记忆性(long memory)等。这些复杂特征常常同时出现于数据,解决相关问题一般离不开复杂的数学工具,如概率论/随机过程(probability theory/stochastic process),非参数/半参数模型(non-/semiparametric model),极端值理论(extreme value theory),函数论(Besov space, kernel, Sobolev space, spline, wavelet),泛函分析(Banach/Hilbert space, operator/spectra theory),黎曼几何(Riemannian geometry)等等。我没有用“做理论(theoretical)”这个形容词,因为在美国统计学圈子里,theoretical有“冥顽不化,不会分析数据,只会证明没用的大样本定理”的负面含义。简而言之,好的统计学研究需要背靠理论。
最后,统计学研究应该产生方便用户的程序(produces user-friendly procedures)。程序/算法的理论性质经过了论证而可靠(reliable),有效/准确(efficient/accurate);算法的思路直观(intuitive),易于解读(easy to interpret);算法快速(computionally fast)。写好这样高质量的程序/算法,真正满足实际工作者的需要,是十分艰辛的工作,需要统计学家长时间潜心研究。统计学研究的产品,应该就是这样的算法。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-7 03:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社