博主辛苦了,我要打赏银两给博主,犒劳犒劳站长。
【摘要】常用的知名uci数据集主要包括四种:Iris,Wine,Soybean,Zoo,已知这四类数据集聚类结果可靠,并取得一致见意,适合做聚类分析的基准数据集。本文简要介绍这四类数据集。
首先,简绍一下uci数据集,百度百科是这么简绍的:UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有335个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。
uci官网地址:
Machine Learning Repository(机器学习库)地址:
Iris数据集,中文叫鸢【yuān】尾数据集,Iris包含3个类,每个类中有50个元素,每一类各有50个元素,每个元素有5个属性,每一类代表一种类型的鸢尾花,150个样本在3个类簇中分布均匀;其中,一类与另外两类线性可分,另外两类有部分重叠。
注:5个属性分别是:
花萼长度、花萼宽度、花瓣长度、花瓣宽度、鸢尾种类
Iris数据集下载地址:
如图:
Wine数据集,中文叫做酒数据集,Wine数据集具有好的聚类结构,它包含178个样本,13个数值属性,分成3个类,每类中样本数量不同。
Wine数据集下载地址:
如图:
Soybean数据集中文叫做大豆疾病数据,Soybean数据集共有47个样本,具有35个属性,分为4类,是线性可分的,其所有属性都是可作为分类属性。
其下载地址:
如下图:
Zoo数据集中文叫做动物园数据集,该数据集共有101个记录,分为7类,是线性不可分的,在Zoo中,由16个属性来描述样本,其中15个为布尔属性值{0,1}和1个分类属性(腿的数量){0,2,4,6,8}。
下载地址:
如下图:
有了以上的数据集,在后续文章中会简绍如何在k-means等等聚类算法中如何使用这些数据集,并给出小例子。
版权归 马富天PHP博客 所有
本文标题:《四大常用知名的uci数据集简介》
本文链接地址:http://www.mafutian.net/180.html
转载请务必注明出处,小生将不胜感激,谢谢! 喜欢本文或觉得本文对您有帮助,请分享给您的朋友 ^_^
顶11
踩3
评论审核未开启 |