Ideogram4.0开源发布:93亿参数打造最强文字生成AI，DesignArena全球第四

AI 图像生成平台 Ideogram 于6月3日正式发布开放权重文生图模型 Ideogram4.0。根据官方公布的基准测试结果，该模型已成为当前性能领先的开源图像生成模型之一，并在文字生成与版式控制能力方面实现显著提升。

Ideogram4.0核心规模达到93亿参数（9.3B），采用近年来主流开源模型普遍使用的单流(Single-Stream)架构设计，让文本 Token 与图像 Token 在统一的自注意力序列中进行联合建模，从而提升文本与视觉内容之间的协同生成能力。同时，模型将设计可控性作为核心目标，在训练和推理阶段均强化了布局、排版和视觉元素控制能力。

在技术架构上，Ideogram4.0由 Qwen3-VL-8B-Instruct 文本编码器、34层可训练单流扩散 Transformer（DiT）、Euler Flow Matching采样器以及冻结的KL自动编码器组成。这一组合使模型能够兼顾图像质量、文本理解和生成效率。

官方展示的案例显示，Ideogram4.0可生成人物、场景、商业设计、海报和品牌视觉等多种类型图片。其中，文字渲染能力成为本次升级最大亮点。相比传统文生图模型经常出现文字错乱、拼写错误等问题，Ideogram4.0能够更准确地在图像中呈现长文本内容，对于海报设计、商品展示图、封面制作以及社交媒体营销素材等场景具有较高实用价值。

为了增强版式控制能力，Ideogram在训练过程中引入了对象与文本边界框（Bounding Box）数据，使模型能够理解图像元素之间的空间关系。同时结合结构化JSON字幕数据进行训练，用户可以通过提示词更精准地控制对象位置、文本布局以及整体排版结构，实现更接近专业设计工具的创作体验。

在第三方评测方面，DesignArena最新榜单显示，Ideogram4.0已超越Nano Banana Pro，位列全球第四。DesignArena采用隐藏模型身份后由人工评审对生成结果进行盲测打分，因此能够较好反映真实用户对图像质量和视觉表现力的主观评价。

随着开源图像生成模型竞争持续升温，Ideogram4.0凭借领先的文字生成能力和设计可控性，正在成为海报制作、品牌营销和视觉内容创作领域值得关注的新选择。

地址：https://github.com/ideogram-oss/ideogram4