几个Large-scale分类建模数据, 样本数由50万到5000万不等,属性数由于200到2000不等,可用来测试分类建模算法的时间和空间复杂度复杂度。
数据集 | 训练样本数 | 校验样本数 | 属性数量 |
alpha | 50万 | 10万 | 500 |
beta | 50万 | 10万 | 500 |
gamma | 50万 | 10万 | 500 |
delta | 50万 | 10万 | 500 |
epsilon | 50万 | 10万 | 2000 |
zeta | 50万 | 10万 | 2000 |
fd | 546.98万 | 53.24万 | 900 |
ocr | 350万 | 67万 | 1156 |
dna | 5000万 | 100万 | 201 |
webspam | 35万 | 5万 | 可变 |