【论文笔记】TensorFuzz

原文：TensorFuzz: Debugging Neural Networks with Coverage-Guided Fuzzing （ICML’19)

代码：https://github.com/brain-research/tensorfuzz

方法

CGF基本流程

方法细节

输入选择：选择更新鲜的输入
输入变换：①白噪声（参数由用户给出）；②增加$L_{\infty}$约束的白噪声
目标函数：用户根据覆盖率和元数据情况自定义
覆盖分析器：当我们得到一个新的激活向量时，我们可以查找它的最近邻居，然后检查这个最近的邻居在欧几里得距离中有多远，如果这个距离大于某个量，就向语料中添加输入。
- 可只选择部分神经元的值作为激活向量，如只选logits或logits前一层

实验

实验1：CGF可以高效地找到已训练神经网络的数值错误（导致NaN的错误）

实验方法：使将检查数值运算添加到元数据并运行模糊测试器（fuzzer）。我们训练了一个完全连接的神经网络来对MNIST数据集里的数字进行分类，故意用了一个很糟糕的交叉熵损失，这样就有可能出现数值误差。模型进行了35000步的训练，mini-batch size为100，验证精度为98%。检查MNIST数据集中不含导致数值误差的样本。
实验结果：TensorFuzz 却在10次随机初始化后快速找到了 NaN错误。
- 基于梯度的搜索技术可能无助于查找数值误差
- 随机搜索对于查找数值误差来说效率极低。
实验2：CGF 解决模型和量化版本不一致的问题
- 仅检查已有的数据只能找到很少的错误：作为基线实验，我们训练了一个使用 32 位浮点数的 MNIST 分类器（这一次没有故意引入数值错误）。然后把所有权重和激活值修剪为 16 位。之后，我们对比了 32 位和 16 位模型在 MNIST 测试集上的预测，没有找到任何不一致性。
- CGF 可以快速在数据周围的小区域中找到很多错误：然后运行 fuzzer，变化限制在种子图像周围的半径为 0.4 的无限范数球中，其中仅使用了 32 位模型作为覆盖的激活值。我们将输入限制在种子图像附近，因为这些输入几乎都有明确的类别语义。模型的两个版本在域外的垃圾数据（没有真实类别）上出现不一致性并没有什么意义。通过这些设置，fuzzer 可以生成 70% 样本的不一致性。因此，CGF 允许我们寻找在测试时出现的真实错误.
实验3：TensorFuzz可以发现流行模型实现中的bug
实验4：TensorFuzz可以帮助进行保持语义的代码转换

可控制变量及参数总结

输入选择策略
变换参数
目标函数
激活神经元集合
距离阈值L

方法

CGF基本流程

方法细节

实验

实验1：CGF可以高效地找到已训练神经网络的数值错误（导致NaN的错误）

实验2：CGF 解决模型和量化版本不一致的问题

实验3：TensorFuzz可以发现流行模型实现中的bug

实验4：TensorFuzz可以帮助进行保持语义的代码转换

可控制变量及参数总结