||
写在前面
在机器学习领域,训练和测试数据是很普遍的操作。尤其是在机器学习领域的晚辈:人工智能领域,训练和测试数据尤其重要,并且它还要求数据量要大。如果开发了一个新的模型(例如分类模型),那么自然就想知道该新模型表现如何。这时就需要一些基准数据集(benchmark data)来训练和测试。今天就推荐一个机器学习领域的标准数据集资源库UCI(https://archive-beta.ics.uci.edu/)。
01
—
UCI资源库
UCI资源库创立于1987年,已经有34年的历史了。最早的时候,UCI资源库仅供学校内部的老师和学生使用。目前,UCI资源库(如图1)里面收集了591个基准数据集,公开给所有研究者。在机器学习领域,大家都比较认可该资源库。所以大家可放心将其作为基准数据集来进行算法测试与研究。
图1 UCI资源库主页
02
—
UCI资源库数据类型
UCI资源库数据类型有列表、序列、时间序列、文本、图像和其他。研究领域包括商业、计算机科学、工程、法律、生命科学、物理科学、社会科学、游戏和其他。研究任务有分类、回归、聚类和其他。属性个数普遍小于100个,样本大小普遍大于1000个。
后话
UCI资源库的数据类型和研究领域比较综合,被很多文献所引用。尤其是其数据格式与机器学习开源软件Weka(https://www.cs.waikato.ac.nz/ml/weka/)无缝对接。其他专业的数据资源库有Kaggle(https://www.kaggle.com/)和KDnuggets(https://www.kdnuggets.com/)等,当然,每年数据挖掘和知识发现领域的国际顶会(如ACM SIGKDD)也经常会释放出基准数据集。
以往推荐:
1. 代码收留站推荐一波!
2. 文献管理器推荐一波!
3. 生信书籍推荐一波!
4. 生信微信公众号推荐一波!
5. 韦恩图在线软件推荐一波!
6. 专利数据库推荐一波!
8. SCI专刊推荐一个
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 22:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社