GPT-4 由 8 个 MoE 模型组成，真的吗？

2023-06-27 03:31:46 来源：商业新知网

(资料图片仅供参考)

让大家没想到的是，被传的神乎其神的GPT-4依旧是大力出奇迹的产物。回到ensemble的老路上去了，OpenAI一直在画的AGI的大饼感觉又离我们远了。

黑客 George Hotz 在一个播客中透露，GPT-4 是由 8 个 2200 亿参数的 MoE 模型组成的，每个模型都针对不同的数据和任务分布进行了训练，然后通过一些小技巧将它们混合起来。他还说，这样做是因为单个模型的参数规模已经达到了极限，而且训练时间越长效果越差，所以他们采用了多模型集成的方法来提高性能。他认为，OpenAI 对此保密的原因是不想让别人知道他们的模型并不是那么先进，只要花更多的钱就能复制。

这个说法得到了 PyTorch 创始人 Soumith Chintala 的认可2，他表示自己也听过类似的传闻，但只有 George Hotz 在公开场合说出来了。不过，也有人对这个说法表示怀疑或质疑134，认为这样的模型推理成本太高，而且没有充分利用 GPT-4 的潜力。目前，OpenAI 还没有对这个爆料做出任何回应或证实。

这件事情很可能是真的，理由如下：

已知的Prior：

1.多个信源认为GPT4比GPT3.5参数量大至少一个数量级，也就是1.7万亿以上。

2. OpenAI去年六月发表过技术报告说他们训练LLM用了MoE.

现在的观测：

有人说GPT4是一个1.76万亿参数的MoE

网友得知秘诀后，打算自己也要训练一个LLaMA集合体与GPT-4竞争。

标签：