求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

[打听,数理统计,概率] 样本“中位数”最快的估计方法是什么?

已有 1947 次阅读 2024-3-5 22:21 |个人分类:先进的信息理论与技术|系统分类:科研笔记

[打听,数理统计,概率] 样本“中位数”最快的估计方法是什么?

                              

样本 sample

中位数 median

样本中位数 sample median

累积分布函数 cumulative distribution function

显式公式 explicit formula

数理统计 mathematical statistics

概率 probability

                                         

   下面的请教问题来自实际问题的需求(数据处理),因此混用《概率论》、《数理统计学》等里面的术语。只能今后陆续将它们严密化。

                                        

   实际问题中,几乎总是含有“噪声”、“错误数据”等非理想因素。请您适度注意下面所请教的方法,在未来实际中拟使用时的这些前提。

                                                     

一、从实际的大量数据中,估计“中位数”的快速方法是什么?

   从海量的 N 个原始样本中,估计中位数的方法。

   当然,能直接找到“真正的样本中位数”最好。

   最好是线性时间复杂性的方法。

        

   有没有从样本的统计特性,直接估计中位数的快速方法?

                   

二、我的直接目的

   对于“大数据”,想找一个(一些)可以较好地得到原来的“大数据”的累积分布函数(分布函数, cumulative distribution function, cdf )的快速方法。

                  

   以上请教的目的是用于工程实际问题:简单性第一,准确性第二。

   “只求最快,不求最准。

                                  

参考资料:

[1] 2023-12-12,中位数/median/关蓉,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=51202&Type=bkzyb&SubID=59824

   一组观测值(观测值总数为n),按大小顺序排列,位置居中的变量值(n为奇数)或位置居中的两个变量值的均数(n为偶数)。

[2] 2022-01-20,样本中位数/sample median/胡涛,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=231459&Type=bkzyb&SubID=59831

[3] 2023-06-21,四分位数/quartile/胡涛,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=231463&Type=bkzyb&SubID=59831

   对密度函数从负无穷处开始进行积分(连续分布)或累计(离散分布),得到积分或累计值为0.25、0.5、0.75的数据点。

[4] 2023-04-14,四分位间距/interquartile range;IQR/张业武,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=92864&Type=bkzyb&SubID=119535

[5] 2024-02-27,分位数/quantile/关蓉,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=51201&Type=bkzyb&SubID=59824

   将一组数据按照大小顺序排列后,位于某个特定位置的数值,常用于描述数据的分布情况和集中趋势。又称分位点。

[6] 2022-05-19,箱型图/box plot/胡涛,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=231455&Type=bkzyb&SubID=59831

   主要包含六个数据节点,将一组数据从大到小排列,分别计算出这组数据的上边缘,上四分位数,中位数,下四分位数,下边缘,还有异常值。

[7] 2024-02-06,箱线图/box plot/刘苗,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=51214&Type=bkzyb&SubID=59824

[8] 2023-12-23,切尾均值/trimmed mean/崔恒建,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=287973&Type=bkzyb&SubID=59850

[9] 2023-06-22,四分位差/quartile deviation/戴步云,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=212025&Type=bkzyb&SubID=146302

[10] 2023-05-11,贝塔分布族/beta distribution/钟威,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=231921&Type=bkzyb&SubID=59833

[11] 2022-01-20,探索性空间数据分析/exploratory spatial data analysis/沈体雁,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=191994&Type=bkzyb&SubID=138063

   具体技术有自相关图(检验数据集随机性的技术,通过不同时滞下的自相关系数来刻画)、双柱状图、块图、Bootstrap plot、Boxcox变换(用来消除偏斜,趋向于正态分布)等。

[12] 2022-01-20,位置参数/location parameter/崔恒建,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=231929&Type=bkzyb&SubID=59833

   设随机变量X的分布函数为F,若由F决定的一个量θ(X)满足 θ(X+c) = θ(X)+c,对任意常数 c,则称θ(X)为的X(或F的)一个位置参数。

[13] 2023-06-21,刻度参数/scale parameter/崔恒建,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=231928&Type=bkzyb

   设由随机变量X的分布所决定的参数θ(X)满足 θ(aX) = aθ(X),对任意 a>0,则称为刻度参数。

[14] 2023-04-27,渐近中位无偏估计/asymptotic median unbiased estimator/黄振生

https://www.zgbk.com/ecph/words?SiteID=1&ID=491896&Type=bkzyb&SubID=59834

[15] 2023-12-12,描述统计/descriptive statistics/刘扬,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=51181&Type=bkzyb&SubID=59823

[16] 2023-12-02,数据爆发和异常值处理/data burst and outlier processing/杨浩,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=322967&Type=bkzyb&SubID=167920

[17] 2022-12-23,统计描述/descriptive statistics/赵耐青,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=94944&Type=bkzyb&SubID=124067

[18] 2024-02-21,排序集抽样/ranked set sampling; RSS/陈望学,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=486663&Type=bkzyb&SubID=59853

[19] 2024-02-29,分位数估计/quantile estimation/唐煜,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=51298&Type=bkzyb&SubID=59834

[20] 2023-11-08,数理统计/mathematical statistics/陈希孺,撰周勇修订,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=149136&Type=bkzyb&SubID=59827

           

我们以前的同类学术期刊论文:

[1] Zhengling Yang, Zhifeng Duan, Jingjing Wang, Teng Wang, Yanwen Song, Jun Zhang. Quadratic radical function better than Fisher z transformation [J]. Transactions of Tianjin University, 2013, 19(5): 381–384.

doi:  10.1007/s12209-013-1978-8

https://link.springer.com/article/10.1007/s12209-013-1978-8

[2] Zheng-Ling Yang, Yan-Wen Song, Zhi-Feng Duan, Teng Wang, Jun Zhang. New Sigmoid-like function better than Fisher z transformation [J]. Communications in Statistics - Theory and Methods, 2016, 45(8): 2332-2341.

doi:  10.1080/03610926.2013.771750

https://www.tandfonline.com/doi/abs/10.1080/03610926.2013.771750?journalCode=lsta20

[3] 王晶晶, 杨正瓴. 累积正态分布函数的逼近函数综述[J]. 计算机应用, 2014, 34(S2): 83-84, 90.

doi:  1001-9081( 2014) S2-0083-02

http://www.cqvip.com/QK/94832X/2014A02/663296953.html

https://d.wanfangdata.com.cn/conference/8501053

                            

相关链接:

[1] 2024-03-04,[打听,数理统计,概率] 大数据里的“最简”最优子抽样方法是什么?

https://blog.sciencenet.cn/blog-107667-1424061.html

[2] 2024-03-03,[打听,数理统计,概率] 将累积分布函数表示成均值、方差、偏度、峰度等的显式数学公式

https://blog.sciencenet.cn/blog-107667-1423961.html

[3] 2022-06-22,[小结] 我们在概率论、数理统计学方面的主要创新点(和应用)

https://blog.sciencenet.cn/blog-107667-1344083.html

[4] 2021-07-19,[资料] 时间序列分析与预测的常用误差统计指标

https://blog.sciencenet.cn/blog-107667-1296109.html

[5] 2020-08-18,没有真正“小样本”数理统计学的世界,了无生趣

https://blog.sciencenet.cn/blog-107667-1246844.html

[6] 2018-08-18,“大数据”时期,更渴望“小样本数理统计学”

https://blog.sciencenet.cn/blog-107667-1129894.html

[7] 2020-03-26,现实中常见的概率分布

https://blog.sciencenet.cn/blog-107667-1225390.html

[8] 2014-03-04,[请教] 相关系数和互信息之间的解析关系

https://blog.sciencenet.cn/blog-107667-773091.html

[9] 2017-03-01,[资源] 数学百科全书和手册

https://blog.sciencenet.cn/blog-107667-1036897.html

         

[10] 2023-04-05,[讨论,擂台] 比真随机数更好的伪随机数(以[0,1] 区间上的均匀分布随机数为例)

https://blog.sciencenet.cn/blog-107667-1383089.html

[11] 2023-03-31,[小资料,擂台] 随机数,伪随机数,真随机数

https://blog.sciencenet.cn/blog-107667-1382520.html

[12] 2021-01-30,[再擂台] 最好的100个均匀分布随机数 The best 100 uniformly distributed random numbers

https://blog.sciencenet.cn/blog-107667-1269740.html

[13] 2021-01-30,100个均匀分布随机数 100 uniformly distributed random numbers

http://blog.sciencenet.cn/blog-107667-1269737.html

[14] 2021-05-10,“最好的均匀分布随机数”的一些说明

https://blog.sciencenet.cn/blog-107667-1285904.html

[15] An explicit analytical estimation of the validity of the Tanimoto similarity by confidence intervals in mathematical statistics [C]. Proceedings of the 2018 13th World Congress on Intelligent Control and Automation: 979-984. (EI).

https://ieeexplore.ieee.org/document/8630700/

[16] 2019-07-16,会议论文公式纠错:Tanimoto similarity 谷本系数的置信区间

http://wap.sciencenet.cn/blog-107667-1189819.html

[17] 2022-06-21,往日(11):比 Fisher Z Transformation 更好的标准正态分布累积分布erf逼近函数

https://blog.sciencenet.cn/blog-107667-1343914.html

[18] 2022-06-23,往日(11)之二:比 Fisher Z Transformation 更好:细节与相关的历史资料

https://blog.sciencenet.cn/blog-107667-1344208.html

               

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



https://blog.sciencenet.cn/blog-107667-1424213.html

上一篇:[打听,数理统计,概率] 大数据里的“最简”最优子抽样方法是什么?
下一篇:2024春季第一堂课(卫津路老校区)
收藏 IP: 202.113.11.*| 热度|

21 尤明庆 高宏 王涛 刘进平 郑永军 宁利中 孙颉 刘钢 杨学祥 杜占池 崔锦华 李毅伟 王从彦 周少祥 何青 李学宽 刘炜 许培扬 赵凤光 刘跃 朱晓刚

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 16:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部