为什么所有公开的对 GPT-3 的复现都失败了？复现和使用GPT-3/ChatGPT，你所应该知道的(11)

文｜杨靖锋

译｜杨昊桐，王骁修订源｜机器之心

英文原版作者：杨靖锋，现任亚马逊科学家，本科毕业于北大，硕士毕业于佐治亚理工学院，师从 Stanford 杨笛一教授。

感谢靳弘业对第一版稿件的建议，感谢陈三星，符尧的讨论和建议。

英文原版：

https://jingfengyang.github.io/gpt

推特原文：

https://twitter.com/JingfengY/status/1625003999387881472

这一推文写于 2023 年 2 月 12 日，其中均为个人意见，仅供参考。

为什么所有公开的对 GPT-3 的复现都失败了？我们应该在哪些任务上使用 GPT-3.5 或 ChatGPT？

这篇推文将包括，我在仔细重新检查了一系列文章的细节之后给出的总结，以及对上面两个问题我个人的思考。这些文章包括且不限于：GPT-3, PaLM, BLOOM, OPT, FLAN-T5/PaLM, HELM 等。如果您有更可靠的参考资料或者更实际的经验，欢迎指正。

对于那些想要复现一个属于自己的 GPT-3 或 ChatGPT 的人而言，第一个问题是关键的。第二个问题则对那些想要使用它们的人是重要的（下文提到 GPT-3，主要是指 GPT-3.5 或 InstructGPT 的最新版本，除了一些指向 GPT-3 原文的情况）。

1 为什么所有公开的对GPT-3的复现都失败了？

这里，我称之为“失败”，是指训练得出模型有接近 GPT-3 或者更大的参数量，但仍无法与 GPT-3 原始文献中报告的性能所匹配。在这一标准下，GPT-3 和 PaLM 是“成功”的，但这两个模型都不是公开的。而所有的公开模型（例如：OPT-175B 和 BLOOM-176B）都在一定程度上“失败”了。但是我们仍然可以从这些“失败”中吸取一些教训。

我们需要注意的是，假如能够多次尝试各种不同的训练设置，开源社区可能最终可以复现 GPT-3。但截至目前，训练另一个版本的 OPT-175B 的开销仍然太过高昂——对于如此大规模的模型，一次训练就将需要在约 1000 个 80G A100 GPU 上花费至少 2 个月的时间（数据来自于 OPT 的原始文献）。

尽管一些文章（例如 OPT-175B 和 GLM-130B）声称它们在一些任务上能够匹配甚至超过原始的 GPT-3 的表现，在更多 GPT-3 已经测试过的任务上，这种声明仍然是存疑的。同时，根据大多数使用者在更多样的任务上的经验，以及 HELM 的评估来看，最近的 OpenAI GPT-3 的 API 表现也仍然比这些开源模型更好。

尽管它背后的模型可能使用了指令微调（instruction tuning, 正如 InstructGPT 那样），类似的使用了指令微调的 OPT 版本（OPT-IML）和 BLOOM 版本（BLOOMZ）也仍然远比 InstructGPT 和 FLAN-PaLM（PaLM 的指令微调版本）要差得多。