求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

[打听,数理统计,概率] 大数据里的“最简”最优子抽样方法是什么?

已有 1034 次阅读 2024-3-4 17:00 |个人分类:先进的信息理论与技术|系统分类:科研笔记

[打听,数理统计,概率] 大数据里的“最简”最优子抽样方法是什么?

                              

样本 sample

子抽样 sub-sampling

累积分布函数 cumulative distribution function

显式公式 explicit formula

数理统计 mathematical statistics

概率 probability

                                         

   下面的请教问题来自实际问题的需求(数据处理),因此混用《概率论》、《数理统计学》等里面的术语。只能今后陆续将它们严密化。

                                        

   实际问题中,几乎总是含有“噪声”、“错误数据”等非理想因素。请您适度注意下面所请教的方法,在未来实际中拟使用时的这些前提。

                                                     

一、“特别简单”的子抽样方法是什么?

   从海量的 N 个原始样本中,抽取出 p << N 个“子样本”。用该明显小的 p 个数据的“子样本”来代替“N 个原始样本”来进行后续模型参数估计、模型预测、统计推断等任务。

   请教:

   “最简”的最优子抽样方法是什么?

   最好是线性时间复杂性的方法。

                   

二、我的直接目的

   对于“大数据”,想找一个(一些)特别简单的“再抽样”方法。

   以期可以用很少量的“再抽样”得到的“小样本”,可以基本上得到原来大数据的统计学特性。

   特别是可以较好地得到原来的“大数据”的累积分布函数(分布函数, cumulative distribution function, cdf )。

                  

   以上请教的目的是用于工程实际问题:简单性第一,准确性第二。

   “只求最快,不求最准。

                                  

参考资料:

[1] 2023-12-05,大数据/big data/朱建平,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=182856&Type=bkzyb&SubID=104245

[2] 2023-12-20,子抽样/sub-sampling/孟澄,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=413582&Type=bkzyb&SubID=201733

[3] 2023-12-20,最优子抽样/optimal sub-sampling/孟澄,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=413720&Type=bkzyb&SubID=201736

[4] 2023-05-18,简单随机子抽样/simple random sub-sampling/孟澄,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=413645&Type=bkzyb&SubID=201734

[5] 2023-05-18,杠杆子抽样/simpleleverage sub-sampling/孟澄,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=413497&Type=bkzyb&SubID=201735

[6] 2023-12-19,拟蒙特卡罗法/quasi-Monte Carlo/孟澄,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=413915&Type=bkzyb&SubID=201737

[7] 2024-02-02,均匀设计/uniform design/孙法省、周永道,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=154386&Type=bkzyb&SubID=59882

                  

我们以前的同类学术期刊论文:

[1] Zhengling Yang, Zhifeng Duan, Jingjing Wang, Teng Wang, Yanwen Song, Jun Zhang. Quadratic radical function better than Fisher z transformation [J]. Transactions of Tianjin University, 2013, 19(5): 381–384.

doi:  10.1007/s12209-013-1978-8

https://link.springer.com/article/10.1007/s12209-013-1978-8

[2] Zheng-Ling Yang, Yan-Wen Song, Zhi-Feng Duan, Teng Wang, Jun Zhang. New Sigmoid-like function better than Fisher z transformation [J]. Communications in Statistics - Theory and Methods, 2016, 45(8): 2332-2341.

doi:  10.1080/03610926.2013.771750

https://www.tandfonline.com/doi/abs/10.1080/03610926.2013.771750?journalCode=lsta20

[3] 王晶晶, 杨正瓴. 累积正态分布函数的逼近函数综述[J]. 计算机应用, 2014, 34(S2): 83-84, 90.

doi:  1001-9081( 2014) S2-0083-02

http://www.cqvip.com/QK/94832X/2014A02/663296953.html

https://d.wanfangdata.com.cn/conference/8501053

                            

相关链接:

[1] 2024-03-03,[打听,数理统计,概率] 将累积分布函数表示成均值、方差、偏度、峰度等的显式数学公式

https://blog.sciencenet.cn/blog-107667-1423961.html

[2] 2022-06-22,[小结] 我们在概率论、数理统计学方面的主要创新点(和应用)

https://blog.sciencenet.cn/blog-107667-1344083.html

[3] 2021-07-19,[资料] 时间序列分析与预测的常用误差统计指标

https://blog.sciencenet.cn/blog-107667-1296109.html

[4] 2020-08-18,没有真正“小样本”数理统计学的世界,了无生趣

https://blog.sciencenet.cn/blog-107667-1246844.html

[5] 2018-08-18,“大数据”时期,更渴望“小样本数理统计学”

https://blog.sciencenet.cn/blog-107667-1129894.html

[6] 2020-03-26,现实中常见的概率分布

https://blog.sciencenet.cn/blog-107667-1225390.html

[7] 2014-03-04,[请教] 相关系数和互信息之间的解析关系

https://blog.sciencenet.cn/blog-107667-773091.html

[8] 2017-03-01,[资源] 数学百科全书和手册

https://blog.sciencenet.cn/blog-107667-1036897.html

         

[9] 2023-04-05,[讨论,擂台] 比真随机数更好的伪随机数(以[0,1] 区间上的均匀分布随机数为例)

https://blog.sciencenet.cn/blog-107667-1383089.html

[10] 2023-03-31,[小资料,擂台] 随机数,伪随机数,真随机数

https://blog.sciencenet.cn/blog-107667-1382520.html

[11] 2021-01-30,[再擂台] 最好的100个均匀分布随机数 The best 100 uniformly distributed random numbers

https://blog.sciencenet.cn/blog-107667-1269740.html

[12] 2021-01-30,100个均匀分布随机数 100 uniformly distributed random numbers

http://blog.sciencenet.cn/blog-107667-1269737.html

[13] 2021-05-10,“最好的均匀分布随机数”的一些说明

https://blog.sciencenet.cn/blog-107667-1285904.html

[14] An explicit analytical estimation of the validity of the Tanimoto similarity by confidence intervals in mathematical statistics [C]. Proceedings of the 2018 13th World Congress on Intelligent Control and Automation: 979-984. (EI).

https://ieeexplore.ieee.org/document/8630700/

[15] 2019-07-16,会议论文公式纠错:Tanimoto similarity 谷本系数的置信区间

http://wap.sciencenet.cn/blog-107667-1189819.html

[16] 2022-06-21,往日(11):比 Fisher Z Transformation 更好的标准正态分布累积分布erf逼近函数

https://blog.sciencenet.cn/blog-107667-1343914.html

[17] 2022-06-23,往日(11)之二:比 Fisher Z Transformation 更好:细节与相关的历史资料

https://blog.sciencenet.cn/blog-107667-1344208.html

               

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



https://blog.sciencenet.cn/blog-107667-1424061.html

上一篇:[打听,数理统计,概率] 将累积分布函数表示成均值、方差、偏度、峰度等的显式数学公式
下一篇:[打听,数理统计,概率] 样本“中位数”最快的估计方法是什么?
收藏 IP: 202.113.11.*| 热度|

16 王涛 宁利中 刘进平 许培扬 尤明庆 高宏 孙颉 杨学祥 刘钢 崔锦华 郑永军 李毅伟 朱林 谢钢 钱大鹏 刘跃

该博文允许注册用户评论 请点击登录 评论 (10 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 02:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部