分类 AI快讯 下的文章

在周二举行的“Made on YouTube”直播活动中,YouTube 宣布为 Shorts 创作者推出一系列全新的生成式 AI 工具,旨在简化和加速短视频的创作流程。

此次更新的核心是集成定制版的谷歌文本转视频生成式 AI 模型 Veo3Fast。据 YouTube 介绍,这款模型能够以480p 的分辨率快速生成视频,让用户通过简单的文本提示即可创作出视频片段,并首次支持录制声音。

6389370304670303063445790.png

Veo 功能与 AI 混音工具
Veo 的新功能不仅限于此,创作者现在还可以将视频中的动作应用到静态图像上,例如让照片中的人物跳一段视频中的舞蹈,实现人物动画化。此外,该工具还支持为视频添加不同的艺术风格(如波普艺术或折纸艺术),以及根据文字描述添加人物或道具。

在音频创作方面,YouTube 引入了新的“语音转歌曲混音工具”,该功能利用谷歌的 AI 音乐模型 Lyria2,允许创作者将视频中的对话片段转换成朗朗上口的背景配乐。创作者可以为生成的音乐设定不同的氛围,如“轻松”、“适合跳舞”或“有趣”,从而创作出个性化的音轨。

AI 编辑功能简化视频剪辑
为了进一步简化剪辑流程,YouTube 还推出了全新的 AI 编辑功能。该功能能够自动整理原始素材,挑选出最佳片段,并添加音乐和转场效果,快速生成视频初稿。它甚至能为视频内容自动配上英语或印地语的画外音,为创作者提供一个高效的起点。

目前,这些新功能已在美国、英国、加拿大、澳大利亚和新西兰的部分市场推出,YouTube 计划在未来几周和几个月内逐步向更多创作者和地区开放。

知名 AI 代码编辑器 Cursor 今日正式推出1.6版本更新,该版本引入多项创新功能,旨在提升开发者的生产力和团队协作效率。根据官方公告和社区反馈,这一更新特别强调自定义命令的实用性,已在内部团队中证明其对可重用提示的显著价值。

Cursor 作为一款基于 AI 的代码编辑工具,自推出以来以其智能代理和上下文感知能力深受开发者青睐。此次1.6版本的核心亮点是自定义命令功能,用户现在可以在编辑器中创建和使用自定义命令。这些命令允许开发者定义可重用的提示模板,并通过简单的斜杠(/)前缀快速调用,例如用于运行代码检查器、修复编译错误或生成详细的拉取请求(PR)描述。这种设计特别适用于团队环境,

据官方透露,在 Cursor 的开发团队中,这些命令已被广泛用于标准化工作流程,提高代码审查和提交的效率。

除了自定义命令,1.6版本还优化了代理终端(Agent Terminal)的性能,使其运行更快、更可靠。这项改进解决了以往版本中可能出现的延迟和不稳定性问题,让 AI 代理在处理复杂任务时更具响应性。同时,版本更新新增了对 MCP(Model Context Protocol)资源的官方支持。

据了解,MCP 是一种新兴协议,用于连接外部工具和数据源到 AI 模型中,此次集成允许 Cursor 无缝访问更多资源,如外部 API 或自定义服务器,从而扩展 AI 代理的功能边界。开发者可以通过环境变量或 OAuth 进行认证,并启用自动运行模式,让代理在无需额外确认的情况下调用这些工具。

另一个值得关注的特性是新增的 /summarize 命令。这一命令允许用户随时总结当前上下文,尤其适用于长对话场景。它可以帮助 AI 压缩历史信息,释放上下文窗口空间,而无需创建全新的聊天会话。这对于处理大型代码库或多轮迭代任务特别有用,避免了信息过载导致的性能下降。

更新发布后不久,多位开发者在社交平台上分享了初步体验,称赞自定义命令“极大提升了效率”,并指出 /summarize 功能在长会话中“如虎添翼”。一些早期测试者还提到,代理终端的优化显著改善了在资源受限设备上的表现,例如在配备16GB RAM 的 MacBook Air 上运行更顺畅。此外,官方变更日志显示,Cursor1.6还包括其他辅助改进,如更精确的代码库搜索和 PR 索引总结,进一步增强了工具的实用性。

Cursor 的这一更新标志着 AI 辅助编程工具向更智能化、模块化方向的演进。开发者社区期待这些功能将进一步推动团队协作,尤其在开源项目和企业环境中。Cursor 团队表示,此版本已开始向所有用户推送,建议开发者通过设置菜单启用 Nightly 模式以获取最新迭代,但需注意潜在的资源消耗。

Cursor1.6的发布正值 AI 开发工具市场竞争激烈之际,此前类似工具如 Claude 和其他代理框架也已引入类似协议支持。未来,MCP 的扩展应用可能成为行业标准,推动更多外部集成。更多详情可参考 Cursor 官方网站的变更日志。

地址:https://cursor.com/blog/tab-rl

全球最受欢迎的AI演示工具 Gamma 今日宣布推出其划时代的版本 Gamma3.0,旨在彻底改变用户创建和编辑演示文稿的方式。此次更新的核心是两大创新功能:Gamma Agent 和 Gamma API。

Gamma Agent:AI驱动的演示文稿编辑

Gamma3.0引入的 Gamma Agent 是一项革命性功能,它允许用户通过简单的提示即可实现对演示文稿的全面编辑。例如,只需一句“让它更直观”,Agent 就会自动扫描每张幻灯片,识别并优化可视觉化的数据。此外,用户还可以上传手写的粗略笔记或屏幕截图,Agent 将自动综合信息、搜索网络以补充细节,并生成符合用户品牌或主题风格的专业演示文稿。这一功能极大地简化了内容创作流程,让非专业用户也能轻松制作高质量演示。

Gamma API:实现工作流程自动化

为了满足企业级用户的更高需求,Gamma3.0新增了 Gamma API。该接口支持用户将 Gamma 整合到现有的工作流程中。例如,通过构建 Zapier 自动化流程,销售团队可以实现将会议记录自动转换为个性化演示文稿,并在客户会议结束后立即发送,从而显著提高效率并增强客户体验。

为所有用户降低门槛,提升上限

尽管 PowerPoint 拥有超过10亿用户,但许多人仍然认为制作演示文稿是一个耗时且乏味的过程。Gamma3.0的目标正是解决这一痛点。通过降低创作门槛,让任何人都能轻松表达想法,同时通过强大的AI功能和API接口,为高级用户提供突破性的创作可能。

此外,为支持不同规模的组织和个人用户,Gamma3.0还推出了全新的团队版和商业版计划,并为追求极致效率的高级用户推出了Ultra 计划。

随着教育领域的不断发展,传统的教科书作为教学的重要工具,逐渐显露出一刀切的局限性。为了打破这种局限性,谷歌正在探索如何利用生成性 AI(GenAI)来自动生成多样化的教育材料。近期,谷歌推出了一项名为 “Learn Your Way” 的研究实验,旨在利用这一技术来创造更加有效和互动的学习体验。

该项目的核心理念是允许学生根据个人的学习需求来选择和混合多种学习形式。生成性 AI 的强大能力使得我们能够将教科书内容转化为多种形式,如思维导图、时间线、音频课程等。通过这样的方式,学生可以更深入地理解学习材料,并在不同的表达方式中找到适合自己的学习节奏。

在 “Learn Your Way” 的使用过程中,学生首先需要选择自己的年级和兴趣爱好,系统会根据这些信息对教科书内容进行重新调整。随后,系统会用符合学生兴趣的个性化实例替代原文中的通用例子,使得学习内容更加贴近学生的实际需求。

此外,该系统还包含互动测验功能,以实时反馈学生的学习情况。根据一项针对60名学生的研究,使用 “Learn Your Way” 的学生在理解测验中表现优于使用传统数字阅读器的学生,提升了学习的保留率。

6389369651758263081439253.png
为了评估 “Learn Your Way” 的教学效果,研究团队邀请了多位教育专家对转换后的教学材料进行评估,结果显示所有指标均获得了高分。学生们对这一新型学习工具的反馈也非常积极,100% 的学生表示使用 “Learn Your Way” 使他们在测验中感到更加自信。

谷歌的这项研究实验标志着教育个性化的一个重要进步,未来将继续深化该项目,致力于为每位学生提供更高质量、更具吸引力的个性化学习体验。

近日,Anthropic 宣布其 AI 助手 Claude 正式在 Apple 的旗舰集成开发环境 Xcode26中上线。此项新集成为开发者带来了强大的 AI 编程智能功能,帮助他们在构建、测试和发布 Apple 平台应用时更高效。

通过此项更新,开发者可以将 Claude 账号与 Xcode 连接,使用自然语言与 AI 助手互动。Claude 能够自动获取项目上下文,保留对话历史,并支持文件附件,使得团队在调试问题、重构大段代码和快速开发新功能时更加便捷。

除了基本的助手功能,Claude 还提供了一系列编程工具,旨在简化开发任务。这些工具包括生成文档、对特定代码段进行解释,以及制作 SwiftUI 预览和游乐场。开发者甚至可以直接在编辑器中进行代码的行内修改,从而减少在工具之间切换的需要。

Claude 在 Xcode 中的上线与现有订阅计划紧密相连,使用限制在各个平台间共享,并为 Xcode 集成分配了一部分额度。该功能对 Pro 和 Max 计划用户开放,同时也适用于拥有 Claude Code 的 Team 和 Enterprise 客户的高级座位。

为了开始使用,开发者只需从 Mac App Store 下载 Xcode26,进入首选项中的智能设置并登录 Claude 账号。一旦启用,Claude 将把 Anthropic 的 AI 能力引入 Apple 的开发生态,使得 Xcode 成为个人程序员和大型团队更为强大的工作环境。

此举标志着 AI 编码助手逐渐融入主流开发环境,类似于 VS Code 用户的 Copilot 和 Zed 中的 Gemini CLI。

6389361634748140187725841.png
腾讯集团高级执行副总裁、云与智慧产业事业群CEO 汤道生

9月16日,2025腾讯全球数字生态大会举行,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,“向智能化要产业效率,向全球化要收入规模”,已经成为企业增长的两大核心动力。腾讯将打造“智能化”与“全球化”两大效率引擎,助力企业稳健和可持续增长。

智能化方面,腾讯云正式发布腾讯云智能体战略全景图,全面开放AI能力、C端和B端优势场景。通过智能体解决方案、SaaS+AI、大模型技术三大升级,激发企业的创新潜能。“腾讯将立足‘以人为本’,构建‘好用的AI’,让AI服务于场景中的人,满足人的需求,提升工作的效率,优化交互的体验,甚至提供情绪价值。”汤道生表示。

据介绍,AI已经成为腾讯的“新业务基因”。腾讯元宝上线一年多,已经成为国内DAU排名前三的AI原生应用,用户现在每天向腾讯元宝的提问量,已经达到年初一个月的总量;IMA知识库文件数量已经突破1亿;QQ浏览器的AI月活数比4月增长了17.8倍。同时,AI也助力腾讯广告、游戏等业务实现双位数增长。

全球化方面,腾讯云将从基础设施、技术产品以及服务能力三个方向,助力企业扎根本地、拓展全球市场。一方面,加速基础设施建设,以“全球一张网”构筑全球化发展的基石。另一方面,通过业界领先的产品工具箱,帮助企业用好云、服务好用户、降低运营成本。同时,打造敏捷响应的本地服务团队,以专业知识和贴身服务,成为企业“全球数字合伙人”。

汤道生介绍,今年腾讯云持续加码基础设施建设,海外开区的速度在国内各大云厂商中排在最前列,同时完成多项产品和功能升级,全面适配全球技术生态。过去三年,腾讯云国际业务持续高双位数增长,服务海外客户数同比翻番。90%以上的中国互联网企业和95%以上头部游戏公司,出海都选择了腾讯云。比如印尼GoTo集团、泰国正大、以及美团Keeta、美的、泡泡玛特等中国各行业标杆企业。

以下为发言稿全文:

欢迎来到腾讯全球数字生态大会,很高兴和大家再次相聚在深圳宝安。

最近我跟企业家朋友交流的很多,大家普遍感受到很大的竞争压力,因此,“向智能化要产业效率,向全球化要收入规模”,已经成为企业增长的两大核心动力,也是影响未来行业格局的关键。

这正是今天我们在这里要共同探讨的话题——腾讯云将如何协助各行各业打造“智能化”与“全球化”两大引擎,助力企业稳健和可持续增长。

腾讯立足于“以人为本”,构建“好用的AI”。让AI服务于场景中的人,满足人的需求,提升工作的效率,优化交互的体验,甚至提供情绪价值。

image.png

在C端,腾讯元宝上线一年多,已经成为国内DAU排名前三的AI原生应用。现在,用户每天向腾讯元宝的提问量,已经达到年初一个月的总量。

今年,元宝的分析能力与互动体验不断增强,我们将元宝和微信、腾讯会议、腾讯文档,腾讯视频、QQ音乐等10多个应用打通,进一步提升了用户在生活、办公等多场景下的体验和效率。比如,在公众号和视频号的评论区,大家可以直接@元宝,让它总结内容,询问知识;在腾讯会议,元宝可以替你参会,自动记录会议信息,生成会议纪要。

image.png

此外,我们的ima知识库文件数量已经突破1亿,满足人们对深度知识分享和获取的需求。QQ浏览器的AI月活数,比4月增长了17.8倍。

在我们的内部业务流程中,AI也被大量应用,并取得了显著成效。我们将AI能力深度融入广告、游戏、社交等业务,成为腾讯的“新业务基因”。

在广告业务上,我们通过大模型,优化广告创作、投放、推荐和效果,大幅度提升广告点击率、转化率,在今年2季度助力营销服务收入增长20%;在游戏业务上,我们用AI加速游戏内容制作,基于AI推出仿真度更高的虚拟队友和NPC的方式,吸引新玩家并提升参与度,助力游戏收入实现双位数增长。

面向未来,我们将全面开放AI落地能力,打通C端和B端的技术与场景。通过智能体解决方案、“SaaS+AI”、大模型技术“三大升级”,帮助客户和伙伴打造“好用的AI”,激发企业创新潜能,助力社会实现“以人为本”的AI发展。

首先,我们将推动智能体解决方案的持续升级,加速AI在产业场景的深度落地与应用创新。

正如APP之于移动互联网时代,智能体将成为AI时代的主要应用载体。今天,我们正式发布腾讯云智能体战略全景图,全面开放开发平台、应用场景、基础设施、模型能力与伙伴生态,助力构建懂客户、能决策、可执行、高可靠的智能体。

在技术创新方面,腾讯云智能体开发平台ADP为企业提供大语言模型+搜索增强、工作流、多智能体协同的开发框架,助力企业高效搭建专属智能体。今天,我们面向全球,重磅发布ADP3.0版本。新版本支持对接第三方数据库,进一步强化RAG能力,提升问答效果,可以实现复杂文档中,图、文、表的精准识别与智能关联。通过时效性、权威性加权召回搜索结果,可以显著减少幻觉,让智能体成为企业信赖的“智能中枢”。

我们在工作流中新增Agent节点,实现流程的自主运行、有序执行,大幅提升智能体执行任务的准确性;同时新增应用评测工具,应用上线前先行测试,确保Agent性能可靠;插件生态也大幅扩容,已支持140多个MCP插件。

为了助力智能体开发,我们还搭建了Agent infra的完整套件,提供安全沙箱环境、长短期记忆、工具调用管理,以及全链路的安全和可观测等能力。

腾讯智能体的独特优势还体现在广泛的场景适配能力。依托腾讯云,我们覆盖科研、生产、供应链、销售、服务等全产业链场景,沉淀标准化的行业智能体模板,加速零售、医疗、金融、教育、工业等行业的智能化升级。

最近,腾讯企点营销云就与绝味食品,开展了一次全链路AI营销实战。基于腾讯智能体开发平台结合绝味食品的业务流程及数据积累,我们联合打造了人群圈选、商品推荐、动态权益及内容生成等多个智能体。整个项目中,多个智能体“协同作战”,从用户洞察到内容推送、权益发放再到最后成交,全程智能化运营。

实践结果也非常亮眼——全链路AI营销效率达到人工组的2-3倍。在数百万的测试用户中,AI组的内容点击率是人工组的1.8倍,支付转化率是2.4倍,交易金额达到3.1倍。这些实实在在的“增效”,获得了客户的高度认可,也为更多企业提供了AI营销的创新范本。

智能体的繁荣不仅依靠技术和场景,也离不开开放合作和产业共建。今天,我们正式启动“AI应用繁荣计划”,发起AI共创营,广泛联合开发者和生态伙伴,通过技术开放、资源共享、联合孵化,推动更多垂直智能体方案落地。同时,通过“AI百校行”等科普与竞赛活动,助力AI人才成长。

其次,我们将全面升级“SaaS+AI”的企业应用场景,让AI无缝融入每个人的工作环境,助力个人提效,提升组织效率。

比如,我们将AI能力全面接入代码开发、办公协同、知识管理等核心SaaS应用中。在开发场景,腾讯云CodeBuddy,帮助上百万开发者的科技创新,大幅提升研发效率与品质。它打破了上下游互相制约的瀑布流开发,变成了以AI为核心的并行模式。过去开发电商活动页,需要产品经理先描述需求、设计师再调整样式、开发人员编写代码,需要2天时间;现在大家有AI助力,最快只需要2小时就能完成。目前,在腾讯内很多产品,已经有超过40%的新增代码是由AI生成的,35%的任务由AI评审。程序员平均月交付数提升34%,交付周期缩短10%。

在办公协同领域,腾讯会议、腾讯文档、企业微信等应用也全面AI化。例如,腾讯会议的AI纪要,通过智能推理,能够捕捉参会者的情绪、态度,理解意图,帮助管理者更好的理解团队意图、优化决策。近1年,腾讯会议AI功能用户量同比增长150%+,帮助越来越多人提升效率。我自己就经常用腾讯会议来面试,新的AI纪要功能还可以实时解析应聘者回答中体现的应对能力与态度,方便做综合评估。

在知识管理场景,腾讯乐享今年全面升级为乐享知识库,能够支持102种格式的多模态内容的存储、管理和问答,通过叠加知识深度加工与思考能力,AI问答的准确率达到92%,明显高于普通员工。

在法务场景,腾讯电子签通过“AI智能审查+人工确认”的方式,大幅提升合同审核效率。过去人工审核一份复杂合同,需要一整天,现在AI审核最多10分钟就可以完成,简单合同最快只需1分钟。同时,支持多角度审查、自定义筛查点,以及实时外接海量的法律法规,合同合规性风险降低80%。

第三项核心升级,是持续迭代底层大模型,夯实AI创新的技术底座,为多元应用注入更强劲的智能。

过去一年,腾讯混元密集发布了30多个模型。其中一个重要方向,就是如何以更低的部署和推理成本,实现更强的模型性能,从而加速模型在产业中的落地。

我们推出了0.5B、1.8B、4B、7B、A13B等多款开源小模型,手机和电脑上都能流畅运行,真正实现技术普惠。比如在腾讯手机管家,我们用小尺寸模型提升垃圾短信识别准确率,实现毫秒级拦截。最近开源的混元翻译模型就是一个7B模型,它在2025国际机器翻译大赛的31个单项中,拿下了30个第一名。

在多模态和3D世界模型等前沿领域,我们也在持续探索。混元3D模型在开源社区的下载量超过260万,行业排名第一,并且在质检和设计领域成熟商用。头部3D打印厂商拓竹科技、创想三维,都全面接入腾讯混元3D。零基础新手输入一张图,就能快速生成3D模型并进行打印,大幅提升了建模效率。

今天,我们也正式发布腾讯混元3D3.0模型,建模精度比上一版提升了3倍,人物、复杂细节的生成效果大幅提升。同时,推出面向3D专业生产管线的一站式工具——混元3D Studio,覆盖从概念设计到动作系统的全流程,解决传统3D开发管线中,生产环节多、制作成本高等问题,大幅提升3D生产效率,助力游戏开发、动画制作、工业设计等产业应用。

当然,AI的高效落地,是一个体系化的工程。除了模型和平台工具之外,还需要过硬的基础设施,与先进的工程化的能力。稍后我们的同事邱跃鹏,会为大家详细介绍AI infra上的新进展。

如果说,我们的智能化引擎,致力于让AI从“时髦概念”,变为切实驱动业务的“实际效率”;那么,我们的第二个引擎——“全球化引擎”,则希望助力企业在“大航海时代”,赢得新增长。

当前,全球化进程面临多重挑战:如何选择最合适的市场切入?如何灵活应对不同国家的合规要求?如何快速抓住海外用户的新需求?这些问题的解答,是企业拓展全球市场的关键。

这些年,我们把在国内市场打磨成熟的拳头产品输出到海外。比如腾讯云音视频、边缘安全加速平台、小程序平台、AI数智人等等,已经成为很多企业布局全球市场的“标配”。

同时,我们也在全球新增更多的可用区、完成多项产品和功能升级,全面适配全球技术生态。3年来,腾讯云国际业务持续高双位数增长,服务全球客户数同比去年翻番。比如我们深度服务印尼最大的互联网企业GoTo集团、泰国的正大集团、阿联酋电信e&UAE、法国电信Orange、日本最大的餐厅预订平台Tabelog等知名国际客户,也帮助美团Keeta、美的、泡泡玛特、杨国福麻辣烫等一系列中国企业加速出海进程。同时,90%以上的互联网企业和95%以上头部游戏公司,出海都选择了腾讯云。

我们也将从基础设施、技术产品以及服务能力三个方向,升级腾讯云国际化战略,打造“全球化引擎”,以全球一致的产品体验,助力企业扎根本地、拓展市场。

首先是基础设施提速,打造“全球一张网”,构筑全球化发展的基石。

今年,我们持续加码基础设施建设,海外开区的速度,在国内各大云厂商中排在最前列。此前,我们也宣布了在沙特投资1.5亿美元,建设中东首个可用区;在日本大阪新建第三个可用区及设立区域办公室。截至今年上半年,腾讯云在全球已经设立11个区域办公室,并部署了9大全球技术支持中心。

完善的基础设施,是可靠服务的保障。我们希望,企业在全球任何一个地方,都能够就近接入腾讯云的资源与服务,缩短用户与服务的 “物理距离”,高效开展本地业务;也能更好地满足数据合规、灾备,以及降本增效的要求。

比如,我们和广汽自2017年以来,在智能驾驶、智能座舱、企业数智化展开全方位合作;面对全球化发展,我们也助力广汽将优势的产品和服务快速复制到海外。美的集团这两年在欧洲业务快速发展,传统的IT架构挑战很大。他们基于腾讯云位于法兰克福的数据中心,构建了新的技术底座,把将近50个独立业务系统统一纳入标准化的云原生架构,使得系统的稳定性、扩展能力和研发协作效率显著提升,提前完成了成本优化的目标。

其次是加速技术升级,锻造业界领先的“产品工具箱”,帮助企业用好云、服务好用户、降低运营成本。

聚焦做好产品,是腾讯云一贯坚持的原则。今天我们的很多优势产品,比如音视频、边缘加速与防护EdgeOne等,不仅在国内市场保持绝对领先地位,也在全球范围内展现出强劲的竞争力,成为创新和效率的代表。

今年我们也推动腾讯云产品全面国际化,我们的代码助手CodeBuddy、智能开发体平台ADP等产品,均推出海外版。同时,不少具有腾讯场景特色的优势产品,比如企业级全渠道交易解决方案云Mall、超级应用解决方案Superapp as a Service、刷掌服务平台等,也非常受海外客户欢迎。

阿联酋电信集团e&UAE、印尼人民银行(BRI)、以及中东游戏开发商 PlaysOut 等,都在使用我们的超级应用解决方案,不仅能够即刻上线成百上千的小程序,快速接入已有业务,而且可以通过方案搭载的即时通讯、互动直播等功能,持续提升用户体验和粘性。

第三是服务提效,打造敏捷响应的本地服务团队,以专业知识和贴身服务,成为企业“全球数字合伙人”。

腾讯云服务全球客户并不是简单的售卖产品,更注重对行业的深度理解、与客户的长期陪伴、帮助客户持续成功。

提供专业服务的同时,我们也充分发挥“中国效率”的优势,通过覆盖全球的本地化技术支持和服务团队,随时随地响应客户需求,敏捷应对市场变化,帮助客户打胜仗。

比如泰国正大旗下的零售公司CP AXTRA,前不久就将主要零售及批发业务系统迁移到了腾讯云,他们对于腾讯云产品的质量与性价比、服务响应度、对承诺的重视,都表示高度的认可。

三年前,我们提出“宁要150斤的肌肉,也不要200斤的虚胖”。今天,我可以很自豪地说,经过这几年持续聚焦核心产品和技术,减脂增肌,腾讯云已经成为云市场上极具竞争力的“健硕参赛者”。我们在音视频、即时通信、游戏云、数据库等核心产品及行业赛道上,获得了十多个第一。

当然,这些成果的取得,离不开生态伙伴的全力支持。我们一直以打造健康可持续的伙伴生态为目标,今年以来,伙伴通过腾讯云的收入增速,远超行业平均水平;SaaS服务客户数增长了60%。我们给伙伴带来的商机规模,同比增长了330%。很多伙伴说,腾讯云是合作“第一选择”,因为腾讯云坚守长期价值,不搞野蛮采摘,只做共同耕耘,彼此互信互惠。

面向未来,我们也将继续携手各方,持续打造智能化、全球化两大效率引擎,以场景为锚,扎根产业;以智能为帆,乘风破浪,共建“以人为本”的美好未来!

谢谢大家!

近日,腾讯推出了一种新方法,旨在提升 AI 生成图像的真实感与美学评分。据悉,这一微调技术在仅用32块 H20显卡训练10分钟后就能实现显著的收敛效果,其人工评估得分甚至提升了300% 以上。

当前的扩散模型虽然能够借助奖励机制来优化图像质量,但却面临着一些挑战。首先,模型优化步骤较少,容易出现所谓的 “奖励作弊” 现象,即模型为了获取高分而生成质量较低的图像。其次,离线调整奖励模型的过程不够灵活,限制了实时优化的能力。

6389361491742761769335136.png

为了解决这些问题,腾讯团队提出了两个创新性的方法。第一个是名为 “Direct-Align” 的技术,通过预先注入噪声,模型能够从任何时间点恢复原图。这种方法减少了早期反向传播中的梯度爆炸现象,使得模型在整个扩散过程中都能够进行优化,而不仅仅局限于最后的几个步骤。

第二个创新是 “语义相对偏好优化”(SRPO)。这一方法将奖励信号转变为可受文本控制的信号。通过添加正面和负面提示词,模型能够灵活地调整生成图像的风格,而无需额外数据。这意味着,用户只需在提示词前加上简单的控制短语,即可实现如亮度调整或风格转换等功能。

实验结果显示,经过 SRPO 训练的 FLUX.1-dev 模型在真实感和美学质量上的表现均大幅提升。在一项包含3200个提示词的测试中,经过 SRPO 训练的模型在真实感维度上的优秀率由8.2% 提升至38.9%,而美学质量的优秀率从9.8% 提升至40.5%。相较于其它方法,SRPO 不仅在保持高美学质量的同时,生成的图像纹理更加自然。

这一技术的成功应用,不仅表明腾讯在 AI 绘画领域的进一步探索,也为未来的 AI 图像生成技术指明了方向。

论文地址:https://arxiv.org/pdf/2509.06942

近日,媒体曝光了谷歌在英国埃塞克斯郡兴建新数据中心的规划文件,该项目预计每年将排放超过57万吨二氧化碳,相当于每周约500个短途航班的碳排放。该数据中心位于瑟洛克,面积达52公顷(约128英亩),计划包含多达四个数据中心,若获得批准,将成为一座 “超大规模” 的计算和人工智能中心。

202304071742175056_0.jpg

图源备注:图片由AI生成,图片授权服务商Midjourney

该项目由谷歌母公司字母表(Alphabet)的一家子公司提交申请,正值美国总统特朗普和英国政府希望加大对人工智能(AI)能力投资之际。英国政府预测到2035年,人工智能所需的计算处理能力将增加13倍,急需更多数据中心来满足这一需求,进而推动经济增长。

然而,环保人士对此表示担忧,他们认为大规模的数据中心将显著增加英国的温室气体排放,并对有限的电力和水资源造成压力。谷歌的规划文件中指出,该设施的运营将导致温室气体排放增加568,727吨二氧化碳当量。与之相比,环保组织 Foxglove 的发言人指出,这一排放量远高于一个国际机场的排放水平。

目前,英国的数据中心已占用约2.5% 的电力,预计到2030年,电网的需求将增加四倍。尽管政府认为,数据中心的碳排放不会显著影响英国的碳预算,因为其电网去碳化的目标相当雄心勃勃,但他们也意识到如果不进行大规模的投资,英国可能在国际竞争中落后。

除了埃塞克斯的项目,英国还在推进其他重要的数据中心项目,包括一个位于北安普顿郡的前煤电站址的100亿英镑的计划,该项目于今年3月获得批准,并与英美之间的合作有关。此外,谷歌还在初步洽谈在提赛德建设大型数据中心的事宜。

根据全球咨询公司贝恩公司的研究,到2035年,人工智能和数据中心可能占全球排放的2% 以及工业排放的17%。在依然以化石燃料为主的国家,这一影响尤为显著。谷歌对此次在瑟洛克的规划申请未作评论,对于提赛德的传闻则表示不予置评。

9 月 16 日,在 2025 腾讯全球数字生态大会主峰会上,腾讯公布多项AI技术和产品最新进展,并宣布通过腾讯云全面开放腾讯AI落地能力及优势场景,助力“好用的AI”在千行百业中加速落地。

面对各界关注的算力问题,腾讯集团副总裁、腾讯云总裁邱跃鹏宣布,目前腾讯已经全面适配主流的国产芯片,并积极参与和回馈开源社区。与此同时,软硬件协同全栈优化是腾讯云的长期战略投入,通过异构计算平台的软件能力,整合不同类型的芯片对外提供高性价比的AI算力。

近日,字节跳动与香港大学联合推出了一款全新的开源视觉推理模型 ——Mini-o3,标志着多轮视觉推理技术的又一重大突破。与以往只能进行1-2轮对话的视觉语言模型(VLM)不同,Mini-o3在训练时限制了对话轮数为6轮,但在测试阶段却能将推理轮数扩展至数十轮,极大提升了视觉问题处理的能力。

Mini-o3的强大之处在于其在高难度视觉搜索任务中实现了深度推理,达到当前技术的顶尖水平。这得益于该模型的三个核心设计要素。首先,研究团队构建了一个名为 VisualProbe 的视觉探测数据集,包含数千个针对探索性推理设计的视觉搜索难题。其次,他们开发了一种迭代数据收集流程,使模型能够学习深度优先搜索、试错探索和目标维持等多种推理策略。最后,研究团队提出了超轮次掩码策略,在强化学习过程中避免对达到最大交互轮次的回答进行惩罚,从而有效提升了训练效率和测试扩展性。

训练 Mini-o3的过程分为两个阶段。第一阶段是冷启动监督微调(SFT),旨在激活多轮工具使用能力,研究团队通过上下文学习方式收集了大量高质量的推理轨迹。第二阶段是强化学习(RL),该阶段通过降低图像像素限制和引入超轮次掩码机制,极大提高了模型的互动轮次和推理能力。

Mini-o3在多个视觉搜索基准上表现优异,超越了现有的开源模型。研究人员通过对比实验,发现冷启动 SFT 和超轮次掩码技术是提升推理能力的关键所在。此外,合理的最大像素预算设置对于模型性能的优化也至关重要。

Mini-o3的推出不仅在技术上实现了新的高度,也为未来多轮视觉推理的发展提供了新的方向。这个模型的成功标志着在无需消耗大量训练资源的情况下,深度思考和复杂推理的实现变得更加可能。

论文地址:https://arxiv.org/pdf/2509.07969

在最近于纽约举行的 AI 峰会上,谷歌的一位高管对公司在搜索结果中使用 AI 摘要的做法进行了辩护。这位名叫马克哈姆・埃里克森的副总裁在回应关于滚石母公司 Penske Media Corporation 提起的诉讼时表示,用户的需求正在从传统的 “10个蓝色链接” 逐渐转向由 AI 生成的上下文摘要。

搜索

图源备注:图片由AI生成,图片授权服务商Midjourney

埃里克森指出,谷歌的目标是保持一个 “健康的生态系统”,同时结合 AI 摘要和传统的搜索结果。他提到,尽管 AI 摘要的使用正在增加,但传统的搜索链接仍然对整个生态系统至关重要。他表示,谷歌曾经提供了一个简单且有效的价值主张,通过这些链接,用户可以免费访问全球数十亿的出版物。

然而,最近的证据表明,AI 摘要的使用可能导致网站搜索流量下降,这也影响了在线出版商的收入。在 Penske 的诉讼中,正是强调了这一点。尽管埃里克森拒绝具体谈论诉讼内容,但他强调了谷歌的哲学,即希望能够在满足用户不断变化的需求的同时,推动用户返回到有价值的内容上。

他补充道,用户对信息的需求正在发生变化,他们更倾向于寻求上下文答案和摘要,而非单纯的事实答案和链接。因此,谷歌希望能够平衡提供这些服务,并且不断适应用户的偏好。他强调,谷歌并不会放弃传统搜索链接,因为这种模式在生态系统中依然扮演着重要角色。最终,谷歌的目标是确保互联网内容的整体健康。

近日,知名编程辅助工具 Qoder 在经过一个月的公测后,正式对全球用户推出付费订阅计划。自2025年8月21日公测以来,Qoder 凭借其强大的上下文工程能力及多项受欢迎的功能,如 Repo Wiki 和 Quest Mode,赢得了全球开发者的广泛支持和喜爱。

此次订阅服务的推出,标志着 Qoder 在技术和产品上的一次重要升级。Qoder 整合了全球顶尖的编程模型,用户在 Pro 和 Pro + 版本中可以享受无限代码补全和 Next Edits 功能,大幅提升编程效率。此外,用户在订阅后可获得2,000至6,000不等的 Credits,以灵活调用先进的高级模型,满足日常开发需求。

6389361289820558338744346.png

Qoder 的两大付费版本 —Pro 和 Pro+,各具特色。Pro 版用户可享受无限次代码补全、2,000Credits、Quest Mode 的多任务异步执行及 Repo Wiki 的知识管理功能。而 Pro + 版则在此基础上,提供了6,000Credits,更为丰富的资源支持。

值得注意的是,Qoder 在公测期间收到了用户对 Credits 消耗过快的反馈。为此,Qoder 通过技术升级,提高了智能体工具的并行化能力和工程检索准确率,显著降低了单任务的 token 消耗。根据官方消息,经过此次优化,Credits 的耐用度提升了整整1/3。此外,Qoder 还上线了上下文压缩功能,用户可通过手动压缩冗长的对话来进一步降低 Credits 消耗。

QQ20250916-094931.png

新用户在订阅期间还可以享受两周的免费试用,包括1,000Credits 和各项功能的全面使用。关于如何管理和使用 Credits,Qoder 提供了详细的问答解答,确保用户能够充分利用其服务。

Qoder 的团队表示,这次商业化订阅服务的推出,不仅是为了满足开发者对高效编程工具的需求,也是为其未来的发展奠定基础。Qoder 将继续致力于技术创新,以帮助开发者实现更高效、更流畅的编程体验。

近日,微软宣布将在其 Office 应用中推出免费的 Microsoft365Copilot 聊天功能。此次更新适用于所有 Microsoft365商业用户,涉及 Word、Excel、PowerPoint、Outlook 和 OneNote 等应用。新功能将以侧边栏的形式展现,用户可以借助该功能撰写文档、分析表格等,而无需额外购买 Microsoft365Copilot 许可证。

6389361231557803533518543.png

微软的 Copilot 聊天功能旨在为用户提供一种安全的 AI 聊天体验。根据微软365Copilot 产品营销总经理 Seth Patton 的解释,Copilot 聊天能够快速理解用户当前的工作内容,并提供针对性的回答,确保满足用户需求。此外,该功能无需额外费用,直接为 Microsoft365用户所用。

虽然免费的 Copilot 聊天功能可以帮助用户重写文档、提供摘要以及制作 PowerPoint 幻灯片,但若用户选择每月30美元的 Microsoft365Copilot 许可证,仍将获得更为全面的集成功能。这种许可证的优势在于,它不局限于单一文档,能够跨多个文件进行推理处理,带来更大的灵活性。

拥有 Microsoft365Copilot 许可证的用户还将优先获得包括文件上传、图像生成在内的功能,使用最新技术(如 GPT-5),享受更快的响应速度以及在高峰使用期间更稳定的服务。早在今年,微软就已将其 AI 驱动的 Copilot 功能引入到消费者的 Microsoft365计划中,但在推出新功能时同时上调了订阅价格。不过,此次向商业用户推出 Copilot 聊天功能并没有进行价格调整。

值得注意的是,微软还计划在10月份将其销售、服务和财务 Copilot 整合入 Microsoft365Copilot 订阅中,这将为依赖微软最新 AI 工具的企业客户带来一定的价格优势。

OpenAI 正在进一步拓展其 Evals 工具的功能,为开发者带来了原生音频输入和音频评分支持。这项更新意味着,现在可以直接评估模型的音频响应,而无需先进行文本转录。这一新功能极大地简化了语音识别和语音生成模型的评估流程。

通过 Evals 的原生音频支持,开发者可以更高效地测试和优化其音频应用。用户只需上传音频文件,即可直接在平台上进行性能评估,这不仅减少了数据处理的复杂性,还提高了评估结果的准确性和可靠性。对于那些需要频繁测试和调整音频模型的开发者而言,这是一项重要的进步。

OpenAI

该功能的应用场景非常广泛,例如:智能语音助手的开发与优化,语音识别系统的性能评估,音频内容生成的质量控制。

这一更新为开发者提供了更直接、更高效的工具,以确保其音频应用的高质量和高性能。

地址:https://cookbook.openai.com/examples/evaluation/use-cases/evalsapi_audio_inputs

近日,知名开源项目 BentoML 推出了一款名为 llm-optimizer 的全新工具,旨在为开发者提供一种简单而高效的方法来优化大型语言模型(LLM)的推理性能。随着人工智能技术的迅速发展,LLM 的应用也越来越广泛,如何高效地部署和使用这些模型成为了不少开发者面临的挑战。llm-optimizer 的推出,无疑为这一问题提供了极具价值的解决方案。

llm-optimizer 支持多种推理框架,并兼容所有开源 LLM,旨在消除繁琐的手动调优过程。开发者只需输入简单的命令,就能快速运行结构化实验,应用不同的约束条件,并可视化最终结果。这样的便利性让性能优化变得更加直观和高效。

LLM 羊驼 数学大模型

以具体使用示例来看,用户只需输入几条命令,例如指定使用的模型、输入输出的长度、所用 GPU 及数量等,系统就会自动进行配置和性能分析。通过系统输出的各项性能指标,开发者可以清晰地了解到模型的延迟、吞吐量等信息,从而做出相应的调整。

另外,llm-optimizer 还提供了多种调优命令,供用户根据自己的需求进行选择。无论是简单的并发和数据并行设置,还是复杂的参数调优,都能轻松应对。这种自动化的性能探索方式,极大地提高了开发者的工作效率,消除了过去依赖于手动试错的繁琐过程。

llm-optimizer 的推出,不仅为 LLM 的优化提供了新的思路,也为广大开发者提供了一个强有力的工具。通过这一工具,用户可以更轻松地找到最佳的推理配置,从而提升模型的应用效果。