OpenAI 开源 Transformer Debugger

　　OpenAI 超级对齐负责人 Jan Leike 宣布，推出了一个该公司内部使用的分析 Transformer 内部结构的工具 -- Transformer Debugger (TDB) 。它结合了自动可解释性和稀疏自动编码器，无需编写代码即可快速探索模型。

　　目前，该项目仓库已在 MIT 协议下开放。Jan Leike 表示，TDB 目前仍然是一个处于早期阶段的研究工具，他们希望通过开源的方式让更多人使用，并在此基础上加以改进。

　　根据介绍，Transformer Debugger 是 OpenAI 的 Superalignment 团队开发的一款工具，旨在支持对小语言模型的特定行为进行研究。

　　TDB 可以在编写代码之前进行快速探索，能够干预前向传递并查看它对特定行为的影响。它可以用来回答诸如 "为什么模型会输出 token A 而不是 token B" 或 "为什么 attention head H 会关注 token T" 之类的问题。它通过识别对行为有贡献的特定组件（neurons、attention heads、autoencoder latents），显示自动生成的关于导致这些组件激活最强烈的原因的解释，以及追踪组件之间的连接以帮助发现联系。

　　本次开源发布的内容包括：

Neuron viewer：一个 React 应用程序，托管 TDB 以及包含有关各个模型组件（MLP neurons、attention heads and autoencoder latents for both）信息的页面。 Activation server：对主题模型进行推理，为 TDB 提供数据的后端服务器。它还从公共 Azure 存储桶读取数据并提供数据。 Models：一个用于 GPT-2 模型及其自动编码器的简单推理库，带有用于捕获激活的 hook。 Collated activation datasets：MLP neurons、attention heads 和 autoencoder latents 的顶级激活数据集示例。

　　此外， OpenAI 方面还放出了几个概述 TDB 能力的视频，并展示了如何使用它来研究论文 “Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small”。