1.IMDB Reviews

这对电影爱好者来说是一个极棒的数据集。它可用于着二元情感分类,并具有比此领域以前的任何数据集更多的数据。除了用于训练和测试评论数据外,还有更多未标记的数据可供使用。同时该数据集还包含原始文本和预处理单词格式包。

大小:80 MB

数量:25,000条高质量影评用于训练,25,000条用于测试

SOTALearning Structured Text Representations

2.Twenty Newsgroups

顾名思义,该数据集包含着新闻组相关的文本数据信息。这二十个新闻组数据集合收集了大约20,000新闻组文档,均匀的分布在20个不同的集合。这些文档具有新闻的典型特征:主题,作者和引述。

大小:20 MB

数量:来自20个新闻组的20,000条消息

SOTAVery Deep Convolutional Networks for Text Classification

3.Sentiment140

Sentiment140是一个可用于情感分析的数据集。使用这个流行数据集来开启你的NLP旅程是完美的。情绪信息已经从数据中预先删除。最终的数据集具有以下6个特征:

  • 推文的感情色彩(polarity)
  • 推文的ID
  • 推文的日期
  • 查看记录
  • 推特(tweeter)的用户名
  • 推文的文本内容

大小:80 MB(压缩包)

数量:160,000条推文

SOTA:Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets

4.WordNet

在上面的ImageNet数据集中提到,WordNet是一个包含英文synsets的大型数据库。 Synsets是指同义词组,每个描述不同的概念。 WordNet的结构使其成为NLP非常有用的工具。

大小:10 MB

数量:通过少量“概念联系”将117,000个同义词集与其他同义词集相关联。

SOTAWordnets: State of the Art and Perspectives

5.Yelp Reviews

这是Yelp(美国最大的点评网站)为了学习目的而发布的一个公开数据集。它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。

大小:2.66 GB JSON,2.9 GB SQL and 7.5 GB Photos(全部已压缩)

数量:5,200,000条评论,174,000条商业类型,20万张图片和11个大型城市

SOTAAttentive Convolution

6.The Wikipedia Corpus

该数据集是维基百科全文的集合。它包含来自400多万篇文章的将近19亿单词。这是个强大的NLP数据集--你可以通过单词,短语或段落来进行检索。

大小:20 MB

数量:4,400,000篇文章,19亿单词

SOTABreaking The Softmax Bottelneck: A High-Rank RNN language Model

7.The Blog Authorship Corpus

此数据集包含来自数千名博主的博文(收集自blogger.com)。每篇博客都作为一个单独的文件提供。每篇博客至少有着200个常用英语单词。

大小:300 MB

数量:681,288博文,超过1.4亿单词

SOTACharacter-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution

8.Machine Translation of Various Languages

该数据集包含四种欧洲语言的训练数据。可用于改进当前的翻译方法。有以下语言互译可供参考:

  • 英汉和汉英
  • 英语 - 捷克语和捷克语 - 英语
  • 英语 - 爱沙尼亚语和爱沙尼亚语 - 英语
  • 英语 - 芬兰语和芬兰语 - 英语
  • 英语 - 德语和德语 - 英语
  • 英语 - 哈萨克语和哈萨克语 - 英语
  • 英文 - 俄文和俄文 - 英文
  • 英语 - 土耳其语和土耳其语 - 英语

大小:约15 GB

数量:约30,000,000个句子及其翻译

SOTAAttention Is All You Need