1.MNIST

图像处理相关数据集-深度学习中文社区

MNIST是最受欢迎的深度学习数据集之一。它是一个手写数字数据集,包含一个60,000个样本的训练集和一个10,000个样本的测试集。这是一个很不错的数据集,它可用于在实际数据中尝试学习技术和深度识别模式,并且它花费极少的时间和精力在数据预处理上。

大小: 约50 MB

数量: 10个类别,70,000张图片

SOTADynamic Routing Between Capsules

2.MS-COCO

图像处理相关数据集-深度学习中文社区

COCO是一个可用于object detection, segmentation and caption的大型数据集。有以下特点:

  • 目标分割
  • 上下文关系识别
  • 超像素分割
  • 330K图像(> 200K已标记)
  • 150万个目标
  • 80个分类
  • 91种目标
  • 每张图片5个字幕
  • 包含250,000个人(已标记)

大小:约25 GB(压缩包)

数量: 330K张图像,80个对象类别,每个图像5个描述,25万个人(已标记)

SOTA Mask R-CNN

3.ImageNet

图像处理相关数据集-深度学习中文社区

ImageNet是基于WordNet层次结构组织的图像数据集。WordNet包含约100,000个短语,ImageNet平均提供了约1000个图像来说明每个短语。

大小:约150GB

数量:图像总数约1,500,000; 每个都有多个边界框和相应的类标签。

SOTAAggregated Residual Transformations for Deep Neural Networks

4.Open Images Dataset

图像处理相关数据集-深度学习中文社区

Open Images Dataset是一个包含超过900万个链接图像的数据集。其中包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。它的图像种类跨越数千个类别,且有图像层级的标注框进行注释。

大小: 500 GB(压缩包)

数量: 9,011,219张超过5k标签的图像

SOTA: Resnet 101 image classification model (trained on V2 data):Model checkpoint, Checkpoint readme, Inference code.

5.VisualQA

图像处理相关数据集-深度学习中文社区

VQA是一个包含有关图像的开放式问题的数据集。这些问题需要理解视野和语言。有以下有意思的特点:

  • 265,016张图片(COCO和抽象场景)
  • 每张图片至少有3个问题(平均5.4个问题)
  • 每个问题10个基本事实
  • 每个问题3个似乎合理(但可能不正确)的答案
  • 指标自动评估

大小: 25 GB(压缩包)

数量: 265,016张图片,每张图片至少3个问题,每个问题10个基本事实

SOTA Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

6.The Street View House Numbers (SVHN)

图像处理相关数据集-深度学习中文社区

这是一个为训练目标检测算法而“真实”存在的一个图像数据集--来自于谷歌街景中的房屋号码。它对图像预处理和格式要求较低。与上边提到的MNIST数据集类似,但SVHN包含更多的标记数据(超过600,000个图像)。

大小: 2.5 GB

数量: 10个类别,共6,30,420张图片

SOTADistributional Smoothing With Virtual Adversarial Training

7.CIFAR-10

图像处理相关数据集-深度学习中文社区

这个数据集是图像分类的另一个神级入门数据集。它由10个类别60,000个图像组成(每个类在上图中表示为一行)。总共有50,000个训练图像和10,000个测试图像。数据集分为6个部分 - 5个训练批次(training batches)和1个测试批次(test batches)。每个批次(batch)有10,000个图像。

大小:170 MB

数量:10个类别,共60,000张图片

SOTAShakeDrop regularization

8.Fashion-MNIST

图像处理相关数据集-深度学习中文社区

Fashion-MNIST包含60,000个训练图像和10,000个测试图像。它是一个类似MNIST的时尚产品数据库。开发人员认为MNIST已被过度使用,因此他们将其作为该数据集的直接替代品。每张图片都以灰度显示,并与10个类别的标签相关联。

大小:30 MB

数量:10个类,70,000张图片

SOTA:Random Erasing Data Augmentation