1.Free Spoken Digit Dataset

此列表中的另一个与MNIST数据集相似的数据集!为了解决自然语言处理中的数字识别任务而创建。这是一个公开的数据集,并且希望随着人们贡献更多样本来获得持续增长。目前,它包含以下特点:

  • 3个录音者
  • 1500条录音(每个人每个数字50遍)
  • 英式发音

大小:10 MB

数量:1500条音频

SOTA:Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

2.Free Music Archive (FMA)

FMA是一个音乐分析数据集。数据集由音频(full-length and HQ),预先计算的特征( pre-computed features)以及音轨和用户级元数据(metadata)组成。它是一个公开数据集,用来评估MIR中的多项任务。以下是其包含的csv文件列表:

tracks.csv:包含所有(106,574首)曲目的基本信息--ID,标题,艺术家,流派,标签和播放次数。

genres.csv:163种流派的ID(包含名称和之间的关系)

features.csv:基本特征(使用librosa提取)。

echonest.csv:由Echonest(现在的Spotify)为13129首曲目提供的音频特征。

大小:约1000 GB

数量:约100,000曲目(tracks)

SOTA:Learning to Recognize Musical Genre from Audio

3.Ballroom

该数据集由来自舞厅的音频数据组成。以实际音频格式提供了许多舞蹈风格的一些音频片段。有以下特点:

  • 总数:698
  • 单个时长:约30秒
  • 总时长:约20940秒

大小:14GB(压缩)

数量:约700个音频样本

SOTAA Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

3.Million Song Dataset

百万歌曲数据集是由一百万首当代流行音乐曲目的音频特征和元数据组成。其目的是:

  • 鼓励对扩展到商业规模的算法进行研究
  • 为评估研究提供参考数据集
  • 作为使用API创建大型数据集的替代方法(e.g. The Echo Nest)
  • 帮助新研究人员在MIR领域开始工作

数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包含任何音频,只包含派生的特征。样本音频可以通过使用哥伦比亚大学提供的代码7digital等服务器上获取。

大小:280 GB

数量:一百万首歌曲哦!

SOTA: Preliminary Study on a Recommender System for the Million Songs Dataset Challenge

4.LibriSpeech

该数据集是包含约1000小时英语音频的大型语料库。这些数据来自LibriVox项目的有声读物(audiobooks),且已经过分割、对齐处理。如果您恰好想入门这个领域,请查看已准备好的声学模型(已在kaldi-asr.org和语言模型上进行了训练且适合评估),网址为openslr.org/11/

大小:约60 GB

数量:1000小时音频

SOTA: Letter-Based Speech Recognition with Gated ConvNets

5.VoxCeleb

VoxCeleb是一个大型的语音识别数据集。它由来自YouTube视频中的1,251名明星所讲的约10万句话组成。这些数据性别分布均衡(男性占55%),名人跨越不同的口音、职业和年龄,训练集和测试集之间没有重叠。通过这个数据集可以实现一个有趣的应用--区分和识别超级巨星。

大小:150 MB

数量:1,251位名人的100,000条话语

SOTA:VoxCeleb: a large-scale speaker identification dataset