AI 图像生成平台 Ideogram 于6月3日正式发布开放权重文生图模型 Ideogram4.0。根据官方公布的基准测试结果,该模型已成为当前性能领先的开源图像生成模型之一,并在文字生成与版式控制能力方面实现显著提升。
Ideogram4.0核心规模达到93亿参数(9.3B),采用近年来主流开源模型普遍使用的单流(Single-Stream)架构设计,让文本 Token 与图像 Token 在统一的自注意力序列中进行联合建模,从而提升文本与视觉内容之间的协同生成能力。同时,模型将设计可控性作为核心目标,在训练和推理阶段均强化了布局、排版和视觉元素控制能力。

在技术架构上,Ideogram4.0由 Qwen3-VL-8B-Instruct 文本编码器、34层可训练单流扩散 Transformer(DiT)、Euler Flow Matching采样器以及冻结的KL自动编码器组成。这一组合使模型能够兼顾图像质量、文本理解和生成效率。
官方展示的案例显示,Ideogram4.0可生成人物、场景、商业设计、海报和品牌视觉等多种类型图片。其中,文字渲染能力成为本次升级最大亮点。相比传统文生图模型经常出现文字错乱、拼写错误等问题,Ideogram4.0能够更准确地在图像中呈现长文本内容,对于海报设计、商品展示图、封面制作以及社交媒体营销素材等场景具有较高实用价值。

为了增强版式控制能力,Ideogram在训练过程中引入了对象与文本边界框(Bounding Box)数据,使模型能够理解图像元素之间的空间关系。同时结合结构化JSON字幕数据进行训练,用户可以通过提示词更精准地控制对象位置、文本布局以及整体排版结构,实现更接近专业设计工具的创作体验。
在第三方评测方面,DesignArena最新榜单显示,Ideogram4.0已超越Nano Banana Pro,位列全球第四。DesignArena采用隐藏模型身份后由人工评审对生成结果进行盲测打分,因此能够较好反映真实用户对图像质量和视觉表现力的主观评价。
随着开源图像生成模型竞争持续升温,Ideogram4.0凭借领先的文字生成能力和设计可控性,正在成为海报制作、品牌营销和视觉内容创作领域值得关注的新选择。
地址:https://github.com/ideogram-oss/ideogram4