科学网

 找回密码
  注册
R中的排列组合,阶乘的计算
彭友松 2011-6-2 10:04
参考了网上的一些资料,得到了下面的一些函数可以做这些事。 组合数的计算:从N中选择K个用函数 choose(N,K) 阶乘的计算有三种方法: 1)factorial(N),最快的方法 2) prod(1:N),最慢的方法 3) gamma(N+1),也是非常快的算法 可以看下面的一个测试: system.time(replicate(10000000,gamma(101))) ...
个人分类: 统计学与R语言学习|33224 次阅读|没有评论
对于bootstrap的一些粗浅认识-2
彭友松 2011-5-31 20:25
bootstrap percentile confidenceinterval和bootstrap t confidence interval的比较 先说bootstrap percentile confidence interval的概念,它是指某统计量的bootstrap分布的2.5%和97.5%的间距。两种可信度区间的应用条件不一样,当bootstrap distribution近似符合正态分布,而且bias很小的时候,一般用t可信度区间 ...
个人分类: 统计学与R语言学习|12486 次阅读|没有评论
对于bootstrap的一些粗浅认识
彭友松 2011-5-30 22:11
什么是bootstrap? bootstrap就是从一个原始样本中进行有放回的重复采样,采样大小和原始样本大小相同,采样次数根据计算量而定。从每个重新样的样本中可以计算某个统计量的bootstrap 分布,比如说均值,多个重采样样本的均值构成了原始样本均值的bootstrap分布。在采样完后需要检查待研究统计量的bootstrap分布是不是符合 ...
个人分类: 统计学与R语言学习|23520 次阅读|没有评论
R语言中的机器学习-分类树和回归树
热度 1 彭友松 2011-5-18 16:31
在R中包tree专门用于分类树和回归树的构建,其中的函数tree()和线性回归的函数lm()类似,只需要指定函数形式和数据。如: data - read.table("test") model - tree(V1~.-1,data) 这里需要注意的是,如果公式中的Y是数值变量,那么tree()默认为回归树,否则是分类树。 包中的函数prune.tree()用于修建树,predic ...
个人分类: 统计学与R语言学习|18994 次阅读|1 个评论 热度 1
R语言中的最大似然估计
彭友松 2011-5-12 16:37
对于最大似然估计,都是依赖于似然函数的,因此关键在于写出似然函数,然后对该似然函数进行优化。似然函数依个人的问题而定,比如说下面的是正态分布的似然函数: normal - function(theta,x){ mu - theta sigma2 - theta n - length(x) logL - -0.5*n*log(2*pi)- ...
个人分类: 统计学与R语言学习|31275 次阅读|没有评论
关于回归的一些问题
彭友松 2011-4-22 17:52
1 如何理解回归得到的R-squared和残差标准误? 下面是一个简单的回归模型,给出了模型的上面三个量,如粗体所示。 Call: lm(formula = data ~ data + data ) Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) -124.626 92 ...
个人分类: 统计学与R语言学习|4805 次阅读|没有评论
R语言的图像输出和结果输出
彭友松 2011-4-22 15:19
如果需要保存图像文件,我现在一直在用的图像输出方式是打开一个图像设备,如png("文件名")类似的方式,其他图像格式类似,如tiff格式的可以用tiff("文件名"),画完图之后需要把它关掉,用dev.off()命令。下面是一个例子: x - 1:10 y - 1:10 png("test.png") plot(x,y) dev.off() 如果需要保存R程序的输出结 ...
个人分类: 统计学与R语言学习|21701 次阅读|没有评论
R中package的安装
热度 1 彭友松 2011-3-28 14:58
之前一直用install.packages("packageName")安装R包的,最近文件服务器扩容之后发现这样安装出现了问题,窗口出现的警告信息: 无法在貯藏處/tjjiang/pengyousong/R/rattle_2.6.5.tar.gz/src/contrib中读写索引 我也不知道该怎么解决,于是只有寻找新的方法。在参考了网上的一些博客之后,现在总结下面两种方法: 1 从 ...
个人分类: 统计学与R语言学习|41448 次阅读|1 个评论 热度 1
机器学习中的数据不平衡问题
热度 1 彭友松 2010-10-25 22:49
最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些文献,了解了一些解决这个问题的一些方法和技术。 首先,数据集不平衡会造成怎样的问题呢。一般的学习器都有下面的两个假设:一个是使得学习器的准确率最高,另外一个是 ...
个人分类: 统计学与R语言学习|21488 次阅读|1 个评论 热度 1

本页有 1 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 01:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部