||
[打听,数理统计,概率] 大数据里的“最简”最优子抽样方法是什么?
样本: sample
子抽样: sub-sampling
累积分布函数: cumulative distribution function
显式公式: explicit formula
数理统计: mathematical statistics
概率: probability
下面的请教问题来自实际问题的需求(数据处理),因此混用《概率论》、《数理统计学》等里面的术语。只能今后陆续将它们严密化。
实际问题中,几乎总是含有“噪声”、“错误数据”等非理想因素。请您适度注意下面所请教的方法,在未来实际中拟使用时的这些前提。
一、“特别简单”的子抽样方法是什么?
从海量的 N 个原始样本中,抽取出 p << N 个“子样本”。用该明显小的 p 个数据的“子样本”来代替“N 个原始样本”来进行后续模型参数估计、模型预测、统计推断等任务。
请教:
“最简”的最优子抽样方法是什么?
最好是线性时间复杂性的方法。
二、我的直接目的
对于“大数据”,想找一个(一些)特别简单的“再抽样”方法。
以期可以用很少量的“再抽样”得到的“小样本”,可以基本上得到原来大数据的统计学特性。
特别是可以较好地得到原来的“大数据”的累积分布函数(分布函数, cumulative distribution function, cdf )。
以上请教的目的是用于工程实际问题:简单性第一,准确性第二。
“只求最快,不求最准。”
参考资料:
[1] 2023-12-05,大数据/big data/朱建平,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=182856&Type=bkzyb&SubID=104245
[2] 2023-12-20,子抽样/sub-sampling/孟澄,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=413582&Type=bkzyb&SubID=201733
[3] 2023-12-20,最优子抽样/optimal sub-sampling/孟澄,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=413720&Type=bkzyb&SubID=201736
[4] 2023-05-18,简单随机子抽样/simple random sub-sampling/孟澄,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=413645&Type=bkzyb&SubID=201734
[5] 2023-05-18,杠杆子抽样/simpleleverage sub-sampling/孟澄,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=413497&Type=bkzyb&SubID=201735
[6] 2023-12-19,拟蒙特卡罗法/quasi-Monte Carlo/孟澄,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=413915&Type=bkzyb&SubID=201737
[7] 2024-02-02,均匀设计/uniform design/孙法省、周永道,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=154386&Type=bkzyb&SubID=59882
我们以前的同类学术期刊论文:
[1] Zhengling Yang, Zhifeng Duan, Jingjing Wang, Teng Wang, Yanwen Song, Jun Zhang. Quadratic radical function better than Fisher z transformation [J]. Transactions of Tianjin University, 2013, 19(5): 381–384.
doi: 10.1007/s12209-013-1978-8
https://link.springer.com/article/10.1007/s12209-013-1978-8
[2] Zheng-Ling Yang, Yan-Wen Song, Zhi-Feng Duan, Teng Wang, Jun Zhang. New Sigmoid-like function better than Fisher z transformation [J]. Communications in Statistics - Theory and Methods, 2016, 45(8): 2332-2341.
doi: 10.1080/03610926.2013.771750
https://www.tandfonline.com/doi/abs/10.1080/03610926.2013.771750?journalCode=lsta20
[3] 王晶晶, 杨正瓴. 累积正态分布函数的逼近函数综述[J]. 计算机应用, 2014, 34(S2): 83-84, 90.
doi: 1001-9081( 2014) S2-0083-02
http://www.cqvip.com/QK/94832X/2014A02/663296953.html
https://d.wanfangdata.com.cn/conference/8501053
相关链接:
[1] 2024-03-03,[打听,数理统计,概率] 将累积分布函数表示成均值、方差、偏度、峰度等的显式数学公式
https://blog.sciencenet.cn/blog-107667-1423961.html
[2] 2022-06-22,[小结] 我们在概率论、数理统计学方面的主要创新点(和应用)
https://blog.sciencenet.cn/blog-107667-1344083.html
[3] 2021-07-19,[资料] 时间序列分析与预测的常用误差统计指标
https://blog.sciencenet.cn/blog-107667-1296109.html
[4] 2020-08-18,没有真正“小样本”数理统计学的世界,了无生趣
https://blog.sciencenet.cn/blog-107667-1246844.html
[5] 2018-08-18,“大数据”时期,更渴望“小样本数理统计学”
https://blog.sciencenet.cn/blog-107667-1129894.html
[6] 2020-03-26,现实中常见的概率分布
https://blog.sciencenet.cn/blog-107667-1225390.html
[7] 2014-03-04,[请教] 相关系数和互信息之间的解析关系
https://blog.sciencenet.cn/blog-107667-773091.html
[8] 2017-03-01,[资源] 数学百科全书和手册
https://blog.sciencenet.cn/blog-107667-1036897.html
[9] 2023-04-05,[讨论,擂台] 比真随机数更好的伪随机数(以[0,1] 区间上的均匀分布随机数为例)
https://blog.sciencenet.cn/blog-107667-1383089.html
[10] 2023-03-31,[小资料,擂台] 随机数,伪随机数,真随机数
https://blog.sciencenet.cn/blog-107667-1382520.html
[11] 2021-01-30,[再擂台] 最好的100个均匀分布随机数 The best 100 uniformly distributed random numbers
https://blog.sciencenet.cn/blog-107667-1269740.html
[12] 2021-01-30,100个均匀分布随机数 100 uniformly distributed random numbers
http://blog.sciencenet.cn/blog-107667-1269737.html
[13] 2021-05-10,“最好的均匀分布随机数”的一些说明
https://blog.sciencenet.cn/blog-107667-1285904.html
[14] An explicit analytical estimation of the validity of the Tanimoto similarity by confidence intervals in mathematical statistics [C]. Proceedings of the 2018 13th World Congress on Intelligent Control and Automation: 979-984. (EI).
https://ieeexplore.ieee.org/document/8630700/
[15] 2019-07-16,会议论文公式纠错:Tanimoto similarity 谷本系数的置信区间
http://wap.sciencenet.cn/blog-107667-1189819.html
[16] 2022-06-21,往日(11):比 Fisher Z Transformation 更好的标准正态分布累积分布erf逼近函数
https://blog.sciencenet.cn/blog-107667-1343914.html
[17] 2022-06-23,往日(11)之二:比 Fisher Z Transformation 更好:细节与相关的历史资料
https://blog.sciencenet.cn/blog-107667-1344208.html
感谢您的指教!
感谢您指正以上任何错误!
感谢您提供更多的相关资料!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 09:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社