在生成式 AI 的激烈竞争中,算力与调用成本始终是开发者最为关注的“生命线”。近日,谷歌在开发者生态层面释放重磅利好:针对部分账户的Gemini API免费配额进行了大幅上调,部分模型的单分钟 Token 处理上限(TPM)已正式提升至100万大关。

根据测试反馈,此次调整的覆盖范围主要集中在 Gemini2.5系列模型。其中,Gemini2.5Flash 与 Flash-Lite 两款轻量化模型在部分账号中,已率先实现了100万 Token/分钟的超高吞吐能力。更为吸引人的是,这一免费层级依然保持了“免绑卡、不限总量”的极低门槛,为个人开发者和初创团队提供了极具竞争力的低成本试错空间。

image.png

不过,谷歌的此次策略性扩容呈现出明显的“差异化”特征。并非所有用户都能享受到这一顶级额度,且不同模型之间的性能限制依然存在。目前,虽然 Token 处理上限大幅放宽,但各模型的请求频率限制(RPM)仍被控制在每分钟15次至30次不等,且每日请求总量(RPD)锁定在1500次。此外,作为该系列中的高端方案,Pro 版本模型目前暂未进入免费开放队列。

对于关注隐私的开发者而言,需要额外留心的是,谷歌在服务条款中明确指出,其有权利用免费层级下的提示词(Prompt)与反馈内容进行模型训练。针对这一潜在的数据合规痛点,开发者可以通过官方查询页面查看当前账户的具体额度详情,并根据业务敏感度评估是否选择升级至付费版本。

行业人士认为,谷歌此举不仅是为了通过高规格的免费配额吸引开发者迁入其 API 生态,更是为了在开源模型冲击下,通过极致的性价比稳固其在推理服务市场的领先地位。随着这一免费策略的持续铺开,个人开发者构建复杂 AI 应用的门槛有望被进一步压低。