||
[打听,数理统计,概率] 样本“中位数”最快的估计方法是什么?
样本: sample
中位数: median
样本中位数: sample median
累积分布函数: cumulative distribution function
显式公式: explicit formula
数理统计: mathematical statistics
概率: probability
下面的请教问题来自实际问题的需求(数据处理),因此混用《概率论》、《数理统计学》等里面的术语。只能今后陆续将它们严密化。
实际问题中,几乎总是含有“噪声”、“错误数据”等非理想因素。请您适度注意下面所请教的方法,在未来实际中拟使用时的这些前提。
一、从实际的大量数据中,估计“中位数”的快速方法是什么?
从海量的 N 个原始样本中,估计中位数的方法。
当然,能直接找到“真正的样本中位数”最好。
最好是线性时间复杂性的方法。
有没有从样本的统计特性,直接估计中位数的快速方法?
二、我的直接目的
对于“大数据”,想找一个(一些)可以较好地得到原来的“大数据”的累积分布函数(分布函数, cumulative distribution function, cdf )的快速方法。
以上请教的目的是用于工程实际问题:简单性第一,准确性第二。
“只求最快,不求最准。”
参考资料:
[1] 2023-12-12,中位数/median/关蓉,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=51202&Type=bkzyb&SubID=59824
一组观测值(观测值总数为n),按大小顺序排列,位置居中的变量值(n为奇数)或位置居中的两个变量值的均数(n为偶数)。
[2] 2022-01-20,样本中位数/sample median/胡涛,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=231459&Type=bkzyb&SubID=59831
[3] 2023-06-21,四分位数/quartile/胡涛,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=231463&Type=bkzyb&SubID=59831
对密度函数从负无穷处开始进行积分(连续分布)或累计(离散分布),得到积分或累计值为0.25、0.5、0.75的数据点。
[4] 2023-04-14,四分位间距/interquartile range;IQR/张业武,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=92864&Type=bkzyb&SubID=119535
[5] 2024-02-27,分位数/quantile/关蓉,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=51201&Type=bkzyb&SubID=59824
将一组数据按照大小顺序排列后,位于某个特定位置的数值,常用于描述数据的分布情况和集中趋势。又称分位点。
[6] 2022-05-19,箱型图/box plot/胡涛,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=231455&Type=bkzyb&SubID=59831
主要包含六个数据节点,将一组数据从大到小排列,分别计算出这组数据的上边缘,上四分位数,中位数,下四分位数,下边缘,还有异常值。
[7] 2024-02-06,箱线图/box plot/刘苗,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=51214&Type=bkzyb&SubID=59824
[8] 2023-12-23,切尾均值/trimmed mean/崔恒建,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=287973&Type=bkzyb&SubID=59850
[9] 2023-06-22,四分位差/quartile deviation/戴步云,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=212025&Type=bkzyb&SubID=146302
[10] 2023-05-11,贝塔分布族/beta distribution/钟威,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=231921&Type=bkzyb&SubID=59833
[11] 2022-01-20,探索性空间数据分析/exploratory spatial data analysis/沈体雁,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=191994&Type=bkzyb&SubID=138063
具体技术有自相关图(检验数据集随机性的技术,通过不同时滞下的自相关系数来刻画)、双柱状图、块图、Bootstrap plot、Boxcox变换(用来消除偏斜,趋向于正态分布)等。
[12] 2022-01-20,位置参数/location parameter/崔恒建,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=231929&Type=bkzyb&SubID=59833
设随机变量X的分布函数为F,若由F决定的一个量θ(X)满足 θ(X+c) = θ(X)+c,对任意常数 c,则称θ(X)为的X(或F的)一个位置参数。
[13] 2023-06-21,刻度参数/scale parameter/崔恒建,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=231928&Type=bkzyb
设由随机变量X的分布所决定的参数θ(X)满足 θ(aX) = aθ(X),对任意 a>0,则称为刻度参数。
[14] 2023-04-27,渐近中位无偏估计/asymptotic median unbiased estimator/黄振生
https://www.zgbk.com/ecph/words?SiteID=1&ID=491896&Type=bkzyb&SubID=59834
[15] 2023-12-12,描述统计/descriptive statistics/刘扬,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=51181&Type=bkzyb&SubID=59823
[16] 2023-12-02,数据爆发和异常值处理/data burst and outlier processing/杨浩,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=322967&Type=bkzyb&SubID=167920
[17] 2022-12-23,统计描述/descriptive statistics/赵耐青,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=94944&Type=bkzyb&SubID=124067
[18] 2024-02-21,排序集抽样/ranked set sampling; RSS/陈望学,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=486663&Type=bkzyb&SubID=59853
[19] 2024-02-29,分位数估计/quantile estimation/唐煜,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=51298&Type=bkzyb&SubID=59834
[20] 2023-11-08,数理统计/mathematical statistics/陈希孺,撰周勇修订,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=149136&Type=bkzyb&SubID=59827
我们以前的同类学术期刊论文:
[1] Zhengling Yang, Zhifeng Duan, Jingjing Wang, Teng Wang, Yanwen Song, Jun Zhang. Quadratic radical function better than Fisher z transformation [J]. Transactions of Tianjin University, 2013, 19(5): 381–384.
doi: 10.1007/s12209-013-1978-8
https://link.springer.com/article/10.1007/s12209-013-1978-8
[2] Zheng-Ling Yang, Yan-Wen Song, Zhi-Feng Duan, Teng Wang, Jun Zhang. New Sigmoid-like function better than Fisher z transformation [J]. Communications in Statistics - Theory and Methods, 2016, 45(8): 2332-2341.
doi: 10.1080/03610926.2013.771750
https://www.tandfonline.com/doi/abs/10.1080/03610926.2013.771750?journalCode=lsta20
[3] 王晶晶, 杨正瓴. 累积正态分布函数的逼近函数综述[J]. 计算机应用, 2014, 34(S2): 83-84, 90.
doi: 1001-9081( 2014) S2-0083-02
http://www.cqvip.com/QK/94832X/2014A02/663296953.html
https://d.wanfangdata.com.cn/conference/8501053
相关链接:
[1] 2024-03-04,[打听,数理统计,概率] 大数据里的“最简”最优子抽样方法是什么?
https://blog.sciencenet.cn/blog-107667-1424061.html
[2] 2024-03-03,[打听,数理统计,概率] 将累积分布函数表示成均值、方差、偏度、峰度等的显式数学公式
https://blog.sciencenet.cn/blog-107667-1423961.html
[3] 2022-06-22,[小结] 我们在概率论、数理统计学方面的主要创新点(和应用)
https://blog.sciencenet.cn/blog-107667-1344083.html
[4] 2021-07-19,[资料] 时间序列分析与预测的常用误差统计指标
https://blog.sciencenet.cn/blog-107667-1296109.html
[5] 2020-08-18,没有真正“小样本”数理统计学的世界,了无生趣
https://blog.sciencenet.cn/blog-107667-1246844.html
[6] 2018-08-18,“大数据”时期,更渴望“小样本数理统计学”
https://blog.sciencenet.cn/blog-107667-1129894.html
[7] 2020-03-26,现实中常见的概率分布
https://blog.sciencenet.cn/blog-107667-1225390.html
[8] 2014-03-04,[请教] 相关系数和互信息之间的解析关系
https://blog.sciencenet.cn/blog-107667-773091.html
[9] 2017-03-01,[资源] 数学百科全书和手册
https://blog.sciencenet.cn/blog-107667-1036897.html
[10] 2023-04-05,[讨论,擂台] 比真随机数更好的伪随机数(以[0,1] 区间上的均匀分布随机数为例)
https://blog.sciencenet.cn/blog-107667-1383089.html
[11] 2023-03-31,[小资料,擂台] 随机数,伪随机数,真随机数
https://blog.sciencenet.cn/blog-107667-1382520.html
[12] 2021-01-30,[再擂台] 最好的100个均匀分布随机数 The best 100 uniformly distributed random numbers
https://blog.sciencenet.cn/blog-107667-1269740.html
[13] 2021-01-30,100个均匀分布随机数 100 uniformly distributed random numbers
http://blog.sciencenet.cn/blog-107667-1269737.html
[14] 2021-05-10,“最好的均匀分布随机数”的一些说明
https://blog.sciencenet.cn/blog-107667-1285904.html
[15] An explicit analytical estimation of the validity of the Tanimoto similarity by confidence intervals in mathematical statistics [C]. Proceedings of the 2018 13th World Congress on Intelligent Control and Automation: 979-984. (EI).
https://ieeexplore.ieee.org/document/8630700/
[16] 2019-07-16,会议论文公式纠错:Tanimoto similarity 谷本系数的置信区间
http://wap.sciencenet.cn/blog-107667-1189819.html
[17] 2022-06-21,往日(11):比 Fisher Z Transformation 更好的标准正态分布累积分布erf逼近函数
https://blog.sciencenet.cn/blog-107667-1343914.html
[18] 2022-06-23,往日(11)之二:比 Fisher Z Transformation 更好:细节与相关的历史资料
https://blog.sciencenet.cn/blog-107667-1344208.html
感谢您的指教!
感谢您指正以上任何错误!
感谢您提供更多的相关资料!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 16:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社