zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

机器学习资源库推荐一个

已有 2056 次阅读 2021-10-16 08:16 |个人分类:科普|系统分类:科普集锦

写在前面

在机器学习领域,训练和测试数据是很普遍的操作。尤其是在机器学习领域的晚辈:人工智能领域,训练和测试数据尤其重要,并且它还要求数据量要大。如果开发了一个新的模型(例如分类模型),那么自然就想知道该新模型表现如何。这时就需要一些基准数据集(benchmark data)来训练和测试。今天就推荐一个机器学习领域的标准数据集资源库UCIhttps://archive-beta.ics.uci.edu/)。

 

01

UCI资源库

UCI资源库创立于1987年,已经有34年的历史了。最早的时候,UCI资源库仅供学校内部的老师和学生使用。目前,UCI资源库(如图1)里面收集了591个基准数据集,公开给所有研究者。在机器学习领域,大家都比较认可该资源库。所以大家可放心将其作为基准数据集来进行算法测试与研究。

039b5cc722b24a4ad21a9b8eb5b75a4.png

1 UCI资源库主页

 

02

UCI资源库数据类型

UCI资源库数据类型有列表、序列、时间序列、文本、图像和其他。研究领域包括商业、计算机科学、工程、法律、生命科学、物理科学、社会科学、游戏和其他。研究任务有分类、回归、聚类和其他。属性个数普遍小于100个,样本大小普遍大于1000个。

 

后话

UCI资源库的数据类型和研究领域比较综合,被很多文献所引用。尤其是其数据格式与机器学习开源软件Wekahttps://www.cs.waikato.ac.nz/ml/weka/)无缝对接。其他专业的数据资源库有Kagglehttps://www.kaggle.com/)和KDnuggetshttps://www.kdnuggets.com/)等,当然,每年数据挖掘和知识发现领域的国际顶会(如ACM SIGKDD)也经常会释放出基准数据集。

 

以往推荐:

1. 代码收留站推荐一波!

2. 文献管理器推荐一波!

3. 生信书籍推荐一波!

4. 生信微信公众号推荐一波!

5. 韦恩图在线软件推荐一波!

6. 专利数据库推荐一波!

7. 文献订阅App只推荐一个!

8. SCI专刊推荐一个

 

f14307d1a5cbc34771cf304766ee8fc.png

55e1570b4fdb2d2673496a7fb194b22.png



https://blog.sciencenet.cn/blog-571917-1308132.html

上一篇:miRNA富集分析之clusterProfiler
下一篇:miRNA靶基因识别
收藏 IP: 60.160.60.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 12:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部