ChatGPT的新Images 2.0模型在生成文本方面出奇地好

过去,区分人造图像和人工智能生成的图像很容易——就在两年前,如果不发明“enchuita”、“churiros”、“burrto”和“margartas”等新的美食,就无法使用图像模型为墨西哥餐厅创建菜单。
现在,当我向全新的ChatGPT Images 2.0模型询问墨西哥美食菜单时,它创建的东西可以立即在餐厅中使用,而顾客不会注意到有什么问题。 (然而,售价13.50美元的酸橘汁腌鱼可能会让我质疑鱼的质量。)

为了进行比较,这是我两年前从DALL-E 3得到的结果(当时,ChatGPT没有生成图像):

人工智能图像生成器在历史上一直难以拼写,因为它们通常使用扩散模型,该模型通过从噪声中重建图像来工作。
Lesan AI创始人兼CEOAsmelash Teka Hadgu在TechCrunchin 2024上表示:“扩散模型 [...] 正在重建给定的输入。我们可以假设图像上的文字是非常非常小的部分,因此图像生成器会学习覆盖更多这些像素的模式。”
此后,研究人员探索了其他图像生成机制,例如自回归模型,它可以预测图像的外观和功能,更像法学硕士。
不幸的是,OpenAI在本周的新闻发布会上拒绝回答关于哪种模型正在为ChatGPT Images 2.0提供动力的问题。