通常在训练庞大的深度神经网络会中出现的复杂而又难以理解的运算。为了更方便 TensorFlow 程序的理解、调试与优化,我们可以使用一套叫做 TensorBoard 的可视化工具来展现TensorFlow 图像,绘制图像生成的定量指标图以及附加数据。在后面的时间里我们会推出一系列的TensorFlow与PyTorch的入门教程, 希望大家多多转发与关注。

当 TensorBoard 设置完成后,它应该是这样子的:

TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区

数据序列化 

TensorBoard 通过读取 TensorFlow 的事件文件来运行。TensorFlow 的事件文件包括了你会在 TensorFlow 运行中涉及到的主要数据。下面是 TensorBoard 中汇总数据(Summary data)的大体生命周期。

首先,创建你想汇总数据的 TensorFlow 图,然后再选择你想在哪个节点进行汇总(summary)操作

比如,假设你正在训练一个卷积神经网络,用于识别 MNISt 标签。你可能希望记录学习速度(learning rate)的如何变化,以及目标函数如何变化。通过向节点附加scalar_summary操作来分别输出学习速度和期望误差。然后你可以给每个 scalary_summary 分配一个有意义的 标签,比如 \\'learning rate\\' 和 \\'loss function\\'

或者你还希望显示一个特殊层中激活的分布,或者梯度权重的分布。可以通过分别附加 histogram_summary运算来收集权重变量和梯度输出。

所有可用的 summary 操作详细信息,可以查看summary_operation文档。

在TensorFlow中,所有的操作只有当你执行,或者另一个操作依赖于它的输出时才会运行。我们刚才创建的这些节点(summary nodes)都围绕着你的图像:没有任何操作依赖于它们的结果。因此,为了生成汇总信息,我们需要运行所有这些节点。这样的手动工作是很乏味的,因此可以使用tf.merge_all_summaries来将他们合并为一个操作。

然后你可以执行合并命令,它会依据特点步骤将所有数据生成一个序列化的Summary protobuf对象。最后,为了将汇总数据写入磁盘,需要将汇总的protobuf对象传递给tf.train.Summarywriter

SummaryWriter 的构造函数中包含了参数 logdir。这个 logdir 非常重要,所有事件都会写到它所指的目录下。此外,SummaryWriter 中还包含了一个可选择的参数 GraphDef。如果输入了该参数,那么 TensorBoard 也会显示你的图像。

现在已经修改了你的图,也有了 SummaryWriter,现在就可以运行你的神经网络了!如果你愿意的话,你可以每一步执行一次合并汇总,这样你会得到一大堆训练数据。这很有可能超过了你想要的数据量。你也可以每一百步执行一次合并汇总,或者如下面代码里示范的这样。

merged_summary_op = tf.merge_all_summaries()
summary_writer = tf.train.SummaryWriter(\\'/tmp/mnist_logs\\', sess.graph)
total_step = 0
while training:
  total_step  = 1
  session.run(training_op)
  if total_step % 100 == 0:
    summary_str = session.run(merged_summary_op)
    summary_writer.add_summary(summary_str, total_step)

现在已经准备好用 TensorBoard 来可视化这些数据了。

启动TensorBoard 

输入下面的指令来启动TensorBoard

python tensorflow/tensorboard/tensorboard.py --logdir=path/to/log-directory

这里的参数 logdir 指向 SummaryWriter 序列化数据的存储路径。如果logdir目录的子目录中包含另一次运行时的数据,那么 TensorBoard 会展示所有运行的数据。一旦 TensorBoard 开始运行,你可以通过在浏览器中输入 localhost:6006 来查看 TensorBoard。

如果你已经通过pip安装了 TensorBoard,你可以通过执行更为简单地命令来访问 TensorBoard

tensorboard --logdir=/path/to/log-directory

进入 TensorBoard 的界面时,你会在右上角看到导航选项卡,每一个选项卡将展现一组可视化的序列化数据集 。对于你查看的每一个选项卡,如果 TensorBoard 中没有数据与这个选项卡相关的话,则会显示一条提示信息指示你如何序列化相关数据。

TensorBoard: 图表可视化

TensorFlow 图表计算强大而又复杂,图表可视化在理解和调试时显得非常有帮助。 下面是一个运作时的可式化例子。

TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区"一个TensorFlow图表的可视化") 一个TensorFlow图表的可视化。

为了显示自己的图表,需将 TensorBoard 指向此工作的日志目录并运行,点击图表顶部窗格的标签页,然后在左上角的菜单中选择合适的运行。想要深入学习关于如何运行 TensorBoard 以及如何保证所有必要信息被记录下来,请查看 Summaries 和 TensorBoard.

名称域(Name scoping)和节点(Node)

典型的 TensorFlow 可以有数以千计的节点,如此多而难以一下全部看到,甚至无法使用标准图表工具来展示。为简单起见,我们为变量名划定范围,并且可视化把该信息用于在图表中的节点上定义一个层级。默认情况下, 只有顶层节点会显示。下面这个例子使用tf.name_scopehidden命名域下定义了三个操作:

import tensorflow as tf

with tf.name_scope(\\'hidden\\') as scope:
  a = tf.constant(5, name=\\'alpha\\')
  W = tf.Variable(tf.random_uniform([1, 2], -1.0, 1.0), name=\\'weights\\')
  b = tf.Variable(tf.zeros([1]), name=\\'biases\\')

结果是得到了下面三个操作名:

  • hidden/alpha
  • hidden/weights
  • hidden/biases

默认地,三个操作名会折叠为一个节点并标注为hidden。其额外细节并没有丢失,你可以双击,或点击右上方橙色的 来展开节点,然后就会看到三个子节点alphaweightsbiases了。

这有一个生动的例子,例中有一个更复杂的节点,节点处于其初始和展开状态。

TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区
顶级名称域的初始视图pool_1,点击右上方橙色的 按钮或双击节点来展开。 展开的pool_1名称域视图,点击右上方橙色的-按钮或双击节点来收起此名称域。

通过名称域把节点分组来得到可读性高的图表很关键的。如果你在构建一个模型,名称域就可以用来控制可视化结果。你的名称域越好,可视性就越好。

上面的图像例子说明了可视化的另一方面, TensorFlow 图表有两种连接关系:数据依赖和控制依赖。数据依赖显示两个操作之间的tensor流程,用实心箭头指示,而控制依赖用点线表示。在已展开的视图(上面的右图)中,除了用点线连接的CheckNumericscontrol_dependency之外,所有连接都是数据依赖的。

还有一种手段用来简化布局。大多数 TensorFlow 图表有一部分节点,这部分节点和其他节点之间有很多连接。比如,许多节点在初始化阶段可能会有一个控制依赖,而绘制所有init节点的边缘和其依赖可能会创造出一个混乱的视图。

为了减少混乱,可视化把所有 high-degree 节点分离到右边的一个从属区域, 而不会绘制线条来表示他们的边缘。线条也不用来表示连接了,我们绘制了小节点图标来指示这些连接关系。分离出从属节点通常不会把关键信息删除掉,因为这些节点和内构功能是相关的。

TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区
节点conv_1被连接到save,注意其右边save节点图标。 save has a high degree, 并会作为从属节点出现,与conv_1的连接作为一个节点图标显示在其左边。为了继续减少杂乱,既然save有很多连接,我们则只显示前5个,而把其余的缩略为... 12 more

最后一个结构上的简化法叫做序列折叠(series collapsing)。 序列基序(Sequential motifs)是拥有相同结构并且其名称结尾的数字不同的节点,它们被折叠进一个单独的节点块(stack)中。对长序列网络来说,序列折叠极大地简化了视图,对于已层叠的节点,双击会展开序列。

TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区
一个节点序列的折叠视图。 视图的一小块, 双击后展开。

最后,针对易读性的最后一点要说到的是,可视化为常节点和摘要节点使用了特别的图标,总结起来有下面这些节点符号:

符号 意义
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 High-level节点代表一个名称域,双击则展开一个高层节点。
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 彼此之间不连接的有限个节点序列。
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 彼此之间相连的有限个节点序列。
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 一个单独的操作节点。
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 一个常量结点。
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 一个摘要节点。
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 显示各操作间的数据流边。
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 显示各操作间的控制依赖边。
TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 引用边,表示出度操作节点可以使入度tensor发生变化。

交互

通过平移和缩放来导航图表,点击和拖动用于平移,滚动手势用于缩放。双击一个节点或点击其 按钮来展开代表一组操作的名称域。右下角有一个小地图可以在缩放和平移时方便的改变当前视角。

要关闭一个打开的节点,再次双击它或点击它的-按钮,你也可以只点击一次来选中一个节点,节点的颜色会加深,并且会看到节点的详情,其连接到的节点会在可视化右上角的详情卡片显现。

TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区
详情卡片展示conv2名称域的详细信息,名称域中操作节点的输入和输出被结合在一起,适用于不显示属性的名称域。 详情卡片展示DecodeRaw操作节点,除了输入和输出,卡片也会展示与当前节点相关的设备和属性。

选择对于 high-degree 节点的理解也很有帮助,选择任意节点,则与它的其余连接相应的节点也会选中,这使得在进行例如查看哪一个节点是否已保存等操作时非常容易。

点击详情卡片中的一个节点名称时会选中该节点,必要的话,视角会自动平移以使该节点可见。

最后,使用图例上方的颜色菜单,你可以给你的图表选择两个颜色方案。默认的结构视图下,当两个 high-level 节点颜色一样时,其会以相同的彩虹色彩出现,而结构唯一的节点颜色是灰色。还有一个视图则展示了不同的操作运行于什么设备之上。名称域被恰当的根据其中的操作节点的设备片件来着色。

下图是一张真实图表的图解:

TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区 TensorFlow入门教程(六):使用TensorBoard可视化训练过程-深度学习中文社区
结构视图:灰色节点的结构是唯一的。橙色的conv1conv2节点有相同的结构, 其他颜色的节点也类似。 设备视图:名称域根据其中的操作节点的设备片件来着色,在此紫色代表GPU,绿色代表CPU。