AI资讯 / 发布于 2026.4.22 4:09

ChatGPT的新Images 2.0模型在生成文本方面出奇地好

过去，区分人造图像和人工智能生成的图像很容易——就在两年前，如果不发明“enchuita”、“churiros”、“burrto”和“margartas”等新的美食，就无法使用图像模型为墨西哥餐厅创建菜单。

现在，当我向全新的ChatGPT Images 2.0模型询问墨西哥美食菜单时，它创建的东西可以立即在餐厅中使用，而顾客不会注意到有什么问题。（然而，售价13.50美元的酸橘汁腌鱼可能会让我质疑鱼的质量。）

为了进行比较，这是我两年前从DALL-E 3得到的结果（当时，ChatGPT没有生成图像）：

人工智能图像生成器在历史上一直难以拼写，因为它们通常使用扩散模型，该模型通过从噪声中重建图像来工作。

Lesan AI创始人兼CEOAsmelash Teka Hadgu在TechCrunchin 2024上表示：“扩散模型 [...] 正在重建给定的输入。我们可以假设图像上的文字是非常非常小的部分，因此图像生成器会学习覆盖更多这些像素的模式。”

此后，研究人员探索了其他图像生成机制，例如自回归模型，它可以预测图像的外观和功能，更像法学硕士。

不幸的是，OpenAI在本周的新闻发布会上拒绝回答关于哪种模型正在为ChatGPT Images 2.0提供动力的问题。