2026年2月

近日,微信官方公布了“微信小程序教育平台”的最新成绩单。数据显示,截至目前,全球已有超过 5000 所学校深度接入该平台,共同探索 AI 课程的融合教学,师生们已累计在平台上创建了超过 17 万个小程序项目。

作为一款专为教学设计的工具,微信小程序教育平台已经历了五年的持续迭代。该平台致力于为师生提供免费的“学、用、教”全流程能力,显著降低了 AI 创作的门槛。在创作工具端,平台提供功能完备的在线代码编辑器,支持师生实时预览并一键发布作品。而在教学环节,平台不仅提供了贴合信息科技课标的官方课程库,还引入了 AI 老师进行辅助教学。

值得关注的是,平台集成的 AI 教学助手已支持自然语言创作和“文生图”等前沿应用。这意味着学生可以通过简单的文字指令进行编程尝试,极大地激发了青少年的创造力。以广东廉江安铺中学为例,该校已在七年级至高三全线铺开 AI 相关课程,通过小程序赋能,成功开展了“人工智能+传统文化”等一系列跨学科项目式学习。

微信团队表示,未来将继续加大在 AI 教育领域的投入,并计划邀请更多教育专家和教师加入,共同构建更加丰富的智慧教学生态。

划重点:

  • 🚀 规模化覆盖:全球超 5000 所学校接入,师生累计创建小程序项目已突破 17 万个。

  • 🛠️ 全流程赋能:提供从代码编辑、云端存储到 AI 助手辅助创作的免费“学用教”一体化工具。

  • 🎓 深度融合:成功在多所中学实现全学段 AI 课程普及,通过“自然语言创作”降低编程学习门槛。


根据近期泄露的行业情报,Anthropic 的下一代大模型 Claude Sonnet5(内部代号 Fennec)已部署于谷歌基础设施中,发布在即。这款被视为“史上最强编程模型”的新品,不仅在性能上实现越级突破,更通过价格战和全新的“蜂群”开发模式,直击当前编程 AI 的所有痛点。

核心亮点:性能吊打旗舰,价格直降五成

Claude Sonnet5的出现并非简单的迭代,而是一次降维打击:

越级性能:尽管定位为中端 Sonnet 系列,但在多项内部基准测试中,其整体表现已超越了现有的旗舰级 Claude Opus4.5。

极致定价:由于直接在谷歌 TPU 上进行优化训练,其推理成本大幅下降,定价预计仅为 Opus4.5的50%。

百万长上下文:拥有100万 token 的超大上下文窗口,能够一次性吞下整个项目代码库,从全局视角理解并交付代码,彻底解决“遗留系统”和“屎山代码”的重构难题。

技术突破:SWE-Bench 跑分突破80%

在衡量 AI 编程能力的权威榜单 SWE-Bench 上,Claude Sonnet5取得了超过80.9% 的惊人成绩,远超目前市面上所有编程模型(此前的最高纪录为74.4%)。这意味着它能独立完成从修 Bug、跑 CI 到找回归问题的软件工程师全量日常工作。

“蜂群”模式:一个不请假的 AI 开发团队

Claude Sonnet5最具颠覆性的功能是 Dev Team(开发团队模式),即所谓的“蜂群”架构(Agent Swarm):

自我组织:只需输入一个需求,模型会自动生成总指挥、前端开发、后端开发、QA 测试等多个子智能体。

并行协作:这些智能体能并行工作、互相校验,甚至能根据任务需要“自我增殖”产生新的专项智能体,最终输出完整可运行的功能模块。

工业级产出:任务结束后,系统能自动生成项目总结与执行报告,其产出质量已达到工程管理级别。

行业影响:正面硬刚 OpenAI

Anthropic选择在此时泄露 Sonnet5,用意在于正面阻击 OpenAI 即将发布的 Codex 全家桶。

市场地位:截至2025年 Q4,Anthropic 在企业市场的占有率已达40%,领跑行业。

商业闭环:Claude Code 的年化收入仅用半年就突破了10亿美元,显示出开发者对高效编程工具的巨大付费意愿。

全球开发者社区正因一场“史诗级”的泄露而沸腾。多方证据显示,Anthropic 的新一代编程大模型 Claude Sonnet5(代号 Fennec)已现身谷歌云基础设施,并有望于2026年2月初正式发布。这款被业内戏称为“把整个开发团队塞进模型里”的巨作,正以极其恐怖的性能指标向市场宣告编程 AI 的巅峰时刻已经到来。

此次泄露源于开发者在调用 API 时意外触发的404错误日志,揭示了该模型已完成部署。初步测评数据显示,Sonnet5在处理复杂 UI 渲染和结构化视觉生成任务时表现惊人。更令竞争对手不安的是,虽然其定位为中端的“Sonnet”系列,但在多项内部基准测试中,其整体性能已全面超越了自家的顶级旗舰 Claude Opus4.5。

Sonnet5的核心杀手锏在于其强大的“蜂群模式(Agent Swarm)”。在 Dev Team 开发模式下,该模型能根据需求自动拆分任务,并在后台生成多个子智能体(如前端构建、后端开发、QA 测试等)进行并行协作。这意味着它不再只是一个辅助写代码的插件,而是一个可以自主组织、自我迭代、无需休假的数字化研发团队。

为了彻底解决开发者对大模型“又贵又慢”的痛点,Sonnet5依托谷歌 TPU 进行了深度优化。其推理成本大幅下降,定价仅为 Opus4.5的50%,同时提供高达100万 token 的上下文窗口。面对 OpenAI 即将发布的 Codex 全家桶,Anthropic 此举显然带有“正面硬刚”的杀气,软件工程的生产力范式或将在近日迎来彻底重构。

划重点:

  • 🚀 越级挑战:代号 Fennec 的 Sonnet5性能超越旗舰级 Opus4.5,且在 SWE-Bench 编程基准测试中得分突破80.9%。

  • 🤖 蜂群协作:首创“自动开发团队”模式,能自主生成并调度多个子智能体并行工作,实现从需求到功能的完整交付。

  • 💸 极致性价比:定价直接腰斩50%,并提供100万 token 超长上下文,运行速度更快且延迟更低。

近日,有消息透露,总部位于北京的智谱 AI 与上海的 MiniMax 正计划在春节前后分别推出新一代 AI 模型,引发了业内的广泛关注。

智谱 AI 的 GLM-5 模型预计将在 2 月 15 日农历新年开始前一周正式发布。根据内部消息,这款新模型在创意写作、编程、推理及智能体能力等领域将实现突破性进展,极有可能重新定义 AI 的应用方式。GLM-5 的推出被寄予厚望,业界期待它能够在多个领域带来实质性提升,尤其是在智能写作和代码生成方面。

与此同时,MiniMax 也不甘示弱,将于春节前发布其 M2.2 版本。这是其前一代模型 M2.1 的升级版,着重增强编程能力,预计将为开发者带来更加高效的工具和解决方案。行业分析师认为,MiniMax M2.2 将成为程序员手中的 “秘密武器”,助力他们更快地完成复杂任务。

而另一边,DeepSeek 可能仅在春节前后对其 V3 系列模型进行小幅更新,未来的旗舰模型则被预告将会是一款万亿参数级别的 AI,尽管由于训练时间较长,发布时间有所延后。此消息无疑增加了市场的期待感,尤其是在大型语言模型竞争日益激烈的背景下。

除了这几家公司的新动态,字节跳动和阿里巴巴也计划在 2026 年春节前后推出各自的新一代 AI 模型,进一步加剧市场竞争。字节跳动预计推出 Doubao 2.0(大型语言模型)、Seedream 5.0(图像生成模型)和 SeedDance 2.0(视频生成模型),而阿里巴巴将发布主攻推理与复杂任务能力的 Qwen 3.5。这些新模型的推出,将涵盖文本、图像和视频的多模态生成能力,展现出 AI 产品线的不断扩展。

总之,在春节的脚步声中,AI 行业将迎来一波新的发布潮,业界对未来的技术革新充满期待。


阶跃星辰(Stepfun)近日正式发布了其最新一代开源基座模型——Step3.5Flash。该模型专为智能体(Agent)场景打造,凭借强大的推理能力与极致的响应速度,旨在为开发者提供一个更聪明、更稳定且成本可控的“Agent 大脑”。

image.png

作为一款针对性极强的轻量化模型,Step3.5Flash 在多个维度实现了突破:

  • 极致速度:推理速度最高可达350TPS(每秒生成的词数),尤其在代码类任务中表现卓越。

  • 性能比肩闭源:在 Agent 核心应用场景和数学逻辑任务上,其表现足以媲美主流闭源大模型。

  • 长链条任务保障:具备处理复杂、长逻辑链条任务的稳定性,能够高效应对256K 的超长上下文。

技术架构:兼顾效率与深度

Step3.5Flash 采用了先进的稀疏 MoE(混合专家)架构,总参数量达到1960亿,但每个 Token 激活的参数量仅约为110亿。 为了进一步提升效率,模型引入了 MTP-3 技术,实现一次预测3个 Token,效率直接翻倍。 此外,通过滑动窗口与全局注意力的混合架构,模型能够精准捕捉长文本中的“重点”,大幅降低了计算开销。

多场景实测:从代码到端云协同

在实际应用演示中,Step3.5Flash 展现了多样化的才华:

  • 智能编程:仅凭一段文字描述,即可自动编写并输出基于 WebGL2.0引擎的高性能可视化平台。

  • 复杂计算:在不使用外部工具的情况下,能够快速完成等差数列求和、阶乘累加等高难度数学运算。

  • 端云协同:作为“云端大脑”,它能将用户模糊的需求(如对比各平台价格)拆解为具体的搜索与抓取子任务,极大地简化了本地执行端的难度,确保结果的可靠性。

目前,Step3.5Flash 已在主流平台全量上线,包括 GitHub、HuggingFace 以及 OpenRouter。 为了降低本地部署门槛,阶跃星辰专门优化了模型在个人工作站(如 NVIDIA DGX、Apple M4Max 等)上的运行性能。 此外,公司宣布已经启动 Step4 模型的训练,并邀请全球开发者共同定义下一代 Agent 基础模型。

  • OpenRouter 限免中,0成本升级你的 Agent:https://openrouter.ai/stepfun/step-3.5-flash

  • GitHub 下载快速部署,打造专属 Agent:https://github.com/stepfun-ai/Step-3.5-Flash/tree/main

  • HuggingFace 获取模型权重:https://huggingface.co/stepfun-ai/Step-3.5-Flash

在发布仅六个月后,OpenAI 旗下的 ChatGPT Agent 正面临被停用的危机。据最新报道显示,该产品的用户量已从高峰期的 400 万每周活跃付费用户,暴跌至不足 100 万,流失率高达 75%。

尽管在发布初期吸引了约 11% 的订阅用户尝试,但 ChatGPT Agent 很快就陷入了增长停滞。主要原因在于,大多数用户根本无法理解这个工具的实际用途,甚至有许多人压根不知道它的存在。此外,系统运行缓慢、可靠性欠佳以及潜在的网络安全风险,也进一步推离了用户。

“ChatGPT Agent”这个命名本身也被认为具有误导性。事实上,ChatGPT 的其他模式(如推理模型)已经具备了编写代码、网页浏览和图像分析等“智能体”特征。而该产品唯一的差异化功能仅在于“虚拟浏览器”,将其冠以“Agent”之名,反而让用户误以为其他功能不具备智能代理能力。

面对通用型智能体的失利,OpenAI 正在调整策略,转向开发功能更明确的专用智能体。例如,最新推出的“购物研究(Shopping Research)”智能体,专门用于产品推荐和搜索。


小红书近日被爆出正在秘密内测一项名为“语音问一问”的新功能。这一动作标志着小红书开始发力“真人经验 + AI”的问答场景,试图在激烈的 AI 搜索竞争中,利用其独特的社区内容优势开辟新战场。

目前,已有部分参与内测的用户发现,搜索框下方的原有热榜功能已被语音“问一问”入口取代。用户只需通过语音输入问题,搜索结果页不仅会呈现相关的笔记内容,还会额外显示一份由 AI 生成的总结答案。

据内测用户反馈,“语音问一问”给出的答案并非凭空生成,而是通过 AI 对站内笔记进行结构化梳理,将分散的真人经验一键总结成精炼的回报。小红书官方客服对此证实,该功能尚处于内测阶段,未来有望覆盖更多用户。

小红书内部人士指出,与市场上单纯依赖大模型生成的通用答案不同,“语音问一问”的核心在于对站内海量真实笔记的整合提炼。它本质上是让 AI 成为连接“用户问题”与“真人经验”的桥梁,从而在问搜场景中实现更高效的信息获取。



近日,谷歌旗下Gemini系列AI模型迎来重大泄露事件。据最新情报显示,代号为“Snow Bunny”的内部模型曝光,其强大功能引发业界震动。作为AIbase编辑,我们对这些信息进行梳理和分析,以期为读者带来专业洞见。以下是基于可靠渠道的整理报道,旨在展示Gemini3.5的潜在突破。

image.png

“Snow Bunny”检查点曝光:一次性构建完整应用

泄露的内部模型“Snow Bunny”被描述为一个革命性检查点,能够从单一提示中一次性生成并构建整个应用程序。这一功能标志着AI在软件开发领域的飞跃,极大简化了从概念到成品的流程,预计将重塑开发者的工作模式。

代码生成能力惊人:单提示输出3000行工作代码

据泄露细节,该模型具备生成多达3000行可运行代码的能力,仅需一个提示即可完成。这不仅提升了效率,还确保代码的实用性和可靠性,为复杂项目提供了高效解决方案。

新模型阵容亮相:Fierce Falcon与Ghost Falcon

Gemini3.5引入了两款专精模型。“Fierce Falcon”专注于纯速度和逻辑处理,适用于需要快速计算的场景;“Ghost Falcon”则擅长UI设计、视觉元素以及音频创建,扩展了AI在多媒体领域的应用。这两大模型的结合,增强了Gemini的全面性。

性能超越对手:碾压未发布GPT-5.2与Claude Opus4.5

在基准测试中,Gemini3.5的表现突出。它以75.40%的得分超越了尚未发布的GPT-5.2,并优于Claude Opus4.5。这一比较凸显了谷歌在AI性能优化上的领先优势。

深度思考模式激活:解决复杂逻辑难题

新功能包括“Deep Think”切换模式,专为处理高难度逻辑问题而设计。该模式允许AI在响应前进行深入分析,提升问题解决的准确率。

System2推理机制:暂停思考再输出

Gemini3.5采用“System2”思考框架,在回答前会主动暂停并进行推理。这种仿人类认知的机制,确保输出更具深度和可靠性。

推理基准得分领先:80% vs 竞争对手55%

在困难推理基准测试中,该模型得分高达80%,远超竞争对手的55%。这一数据证明了Gemini在复杂任务上的强劲竞争力。

API接口确认:gemini-for-google-3.5变量就绪

泄露代码进一步证实,Gemini3.5的API已准备就绪,包括专属变量。这意味着开发者很快即可通过接口集成该模型,推动实际应用落地。

备受关注的开源个人AI助手项目近日完成第三次更名,从最初的Clawd,到短暂的Moltbot,再到如今的OpenClaw。项目官方宣布:“龙虾终于蜕变为最终形态”,标志着这个病毒式传播的AI代理平台进入稳定发展阶段。

image.png

项目起源与命名曲折历程  

该项目最初以Clawd命名(Claude的谐音梗+lobster爪子意象),但因商标问题收到Anthropic的友好请求而被迫更名。随后短暂采用Moltbot(寓意龙虾蜕壳成长),象征项目迭代进化,却因名称不够直观且易记性差而饱受社区吐槽。经过商标检索、域名购置和代码迁移等多轮准备,团队最终选定OpenClaw这一名称:  

- Open:强调完全开源、社区驱动、自托管特性  

- Claw:保留标志性龙虾吉祥物,延续“lobster heritage”  

官方表示,此次更名经过深思熟虑,“这次名字会留下来”。

爆发式增长数据亮眼  

短短时间内,OpenClaw GitHub仓库星标数已超过10万,一周内网站访问量突破200万。项目被誉为“真正能干活的AI”,用户可通过WhatsApp、Telegram、Discord、Slack、Google Chat、Teams等日常聊天应用直接调用本地运行的AI助手,实现清空收件箱、发送邮件、管理日历、航班值机等实用功能。所有数据留在用户自己的设备或服务器上,真正做到“你的助手、你的机器、你的规则”。

image.png

核心功能与最新更新  

OpenClaw定位为本地运行的开放式AI代理平台,支持多平台(任意OS、设备)、多模型接入。近期重点更新包括:  

- 新增Twitch和Google Chat插件支持  

- 集成KIMI K2.5、Xiaomi MiMo-V2-Flash等模型  

- Web聊天界面新增图片发送能力  

- 连续提交34个安全相关改进,发布可机读的安全模型,并持续完善安全最佳实践(尽管prompt injection仍为行业难题)  

团队正积极引入更多维护者,建立PR/Issue处理流程,并探索全职维护者薪酬机制,以保障社区可持续发展。

社区反响与未来展望  

自项目诞生以来,尽管经历了命名风波、账号被劫持、仿冒加密货币诈骗等波折,但核心软件的实用性和隐私保护理念始终赢得开发者与用户青睐。龙虾吉祥物依然“神圣不可侵犯”,成为项目最具辨识度的文化符号。

官方博客强调,OpenClaw不仅是个人助手,更可扩展为家庭、团队甚至公司级工具。未来重点方向包括:进一步强化安全、提升网关稳定性、接入更多模型/提供商,以及壮大维护团队。

项目地址:https://github.com/openclaw/openclaw  

官网:https://openclaw.ai  

社交平台 X 近日曝出关于谷歌下一代模型 Gemini3.5 的重磅泄露信息。 据博主 Pankaj Kumar 发布的帖文显示,一个代号为 Snow Bunny 的内部测试版本展现出了惊人的工程能力,能够一次性构建出完整的应用程序。

image.png

泄露信息指出,Gemini3.5在编程领域实现了质的飞跃,支持通过单次 Prompt 生成多达 3000行可运行的代码。 为了应对不同的使用场景,谷歌似乎还准备了多个专项模型:Fierce Falcon 专注于纯粹的速度与逻辑推理,而 Ghost Falcon 则擅长处理 UI 设计、视觉效果及音频创作。

在核心架构上,Gemini3.5引入了“系统2思维(System2Reasoning)”,允许模型在回答前进行深度思考。 这种新增的“Deep Think”模式使其在困难逻辑测试中的得分高达80%,远超竞争对手。 泄露的数据甚至声称,Gemini3.5的性能已超越了 GPT-5.2以及 Claude Opus4.5。

虽然目前这些信息尚未得到谷歌官方证实,但泄露的代码片段中已经出现了 gemini-for-google-3.5 相关的变量,预示着该模型的 API 已整装待发。

划重点:

  • 🐰 Snow Bunny 计划:内部模型 Snow Bunny 具备极强的应用构建能力,单次可产出3000行代码。

  • 🧠 深度推理架构:引入“系统2”思维和 Deep Think 切换开关,显著提升复杂逻辑问题的解决率。

  • 🚀 多模型协同:泄露信息提及 Fierce Falcon(速度与逻辑)与 Ghost Falcon(多模态创作)两款专项模型。

  • 📊 跑分力压对手:在泄露的基准测试中,其推理得分(80%)大幅领先于同类竞品(55%)。

 随着AI智能体(AI Agents)的爆发,如何让用户更便捷地与AI交互成为行业焦点。近日,初创公司 Linq 宣布完成 2000 万美元的A轮融资。本轮融资由 TQ Ventures 领投,Mucker Capital 及部分天使投资人跟投。这笔资金将用于扩大团队规模、开发新的市场推广策略,并持续深耕其核心技术。

Linq 最初以数字名片业务起家,在经历多次业务转型后,于 2025 年 2 月找到了新的增长点:为企业提供基于 iMessage 和 RCS(富通信服务)的原生通信能力。通过其提供的 API,企业可以摆脱传统短信“绿色气泡”的廉价感,直接通过 iMessage 的“蓝色气泡”与用户交流。这意味着用户无需安装任何新的应用程序,就能在熟悉的短信界面中使用群聊、表情符号、语音消息等高级功能。

去年秋天,一款名为 Poke 的AI助手在 iMessage 平台走红,彻底推高了市场对 Linq 基础设施的需求。大量AI开发商希望利用其接口,将复杂的聊天机器人直接嵌入到用户的原生消息应用中。Linq 首席执行官 Elliott Potter 表示,用户已经对层出不穷的新APP感到疲劳,而AI的智能化程度已足以支撑其在简单的对话界面中完成日程安排、任务处理等工作。

目前,Linq 的平台每月处理超过 3000 万条消息,客户群较上一季度增长了132%。尽管目前业务高度依赖苹果的生态系统,但 Linq 计划未来将服务扩展至 WhatsApp、Telegram、Slack 以及 Discord 等全球主流社交渠道,目标是成为对话式科技领域的基础设施层。

划重点:

  • 💰 融资进展:Linq 完成 2000 万美元A轮融资,旨在构建让AI助手无缝嵌入原生社交应用的基础设施。

  • 📲 产品核心:通过 API 让AI助手能以“原生气泡”形式存在于 iMessage 和 RCS 中,解决用户的“APP安装疲劳”问题。

  • 🚀 业务增长:受AI助手 Poke 走红带动,Linq 月均消息处理量突破 3000 万条,客户规模呈现爆发式增长。


尽管微软在AI领域投入了天文数字般的资金,但最新的财务数据却揭示了一个略显尴尬的现状:在庞大的用户基数面前,愿意为AI买单的用户依然是极少数。据最新报道,在接触过 Copilot Chat 的Microsoft 365和 Office 365 用户中,实际付费比例仅为 3.3%

在最近的 2026 财年第二季度财报会议上,微软虽然展示了一张极其亮眼的“成绩单”——Microsoft 365 Copilot的付费席位已达到 1500 万个,同比增长超过 160%。首席执行官萨提亚·纳德拉更是乐观地表示,Copilot 正在成为用户的“日常习惯”,日活跃用户增长了 10 倍。然而,分析师指出,如果对比微软 4.5 亿商业用户的庞大底座,这 1500 万付费用户显得有些杯水车薪。

目前,微软面临的挑战在于如何将海量的免费试用者转化为付费拥趸。为了覆盖巨大的AI研发与算力成本,微软本季度投入了高达 375 亿美元。尽管 CFO 艾米·胡德强调不应仅通过短期收入来衡量这笔支出,并称其正在为未来长期的生态价值布局,但市场对于如此巨大的投入产出比仍存疑虑。

与此同时,微软内部似乎也在重新审视AI的落地策略。有消息称,公司正在评估是否在 Windows 11 中收缩部分使用率不高的AI功能。对于这家科技巨头而言,AI的长跑才刚刚开始,如何让用户从“觉得好玩”转向“心甘情愿付钱”,将是其接下来最核心的课题。

划重点:

  • 📉 转化瓶颈:尽管微软 365 拥有 4.5 亿商业用户,但 Copilot 的实际付费转化率仅约 3.3%,与巨大的研发投入形成对比。

  • 💰 重金押注:微软单季度在 AI 相关领域的资本支出高达 375 亿美元,高管强调应关注长期价值而非短期回报。

  • 🔄 策略调整:在付费增长缓慢的压力下,微软正计划精简部分系统内置的 AI 功能,以更精准地捕捉用户核心需求。



根据 QuestMobile 最新发布的数据,截止到 2025 年 12 月,中国的月活跃用户总数已经突破了惊人的 12.76 亿人,用户的月均使用时长达到 186.2 小时,比去年增长了 8.4%。这一数据的背后,反映出用户对于移动互联网服务的热情日益高涨,尤其是在人工智能技术不断进步的推动下。

数据显示,尤其在 12 月份,AIGC(人工智能生成内容)应用行业表现尤为亮眼,月活跃用户规模净增超过 2 亿,年同比增速高达 150.4%。这标志着 AIGC 应用正在快速占领用户的注意力,成为互联网应用的新宠。AI 技术的红利正在释放,许多用户通过这些应用获得了更高效、更智能的服务体验。

此外,AI 应用插件也表现出强劲的增长势头。其月活跃用户数量已达到 6.96 亿,同比增速达 37.8%。这意味着,越来越多的用户开始主动使用这些智能工具来提升日常生活和工作的便利性。这种趋势不仅反映出用户对 AI 技术的接受程度提高,也说明了 AI 在日常应用场景中的重要性。

随着 AI 技术的发展,用户对智能内容生成和应用的需求正在不断上升,未来这一领域有望继续保持快速增长的势头。无论是在娱乐、社交还是工作中,AIGC 应用都在不断塑造着我们的生活方式,让我们对未来的科技充满期待。


据《金融时报》报道,曾在人工智能领域保持绝对领先地位的 OpenAI,正面临自 ChatGPT 发布以来最剧烈的内部动荡。据多位知情人士透露,这家估值已达5000亿美元的科技巨头正经历一场从“纯粹研究”向“产品导向”的痛苦转型,这一调整直接导致了多位资深高管和核心研究员的流失。

OpenAI

战略天平的倾斜

在首席执行官萨姆·奥特曼(Sam Altman)的领导下,OpenAI 正从一家前沿研究实验室转变为硅谷最大的商业实体之一。为了巩固 ChatGPT 的市场地位并应对来自 Google(其 Gemini3模型表现强劲)和 Anthropic(Claude 在代码生成领域优势明显)的激烈竞争,奥特曼于去年12月发布了“红色警报”。

这一指令标志着资源的彻底重新分配。目前,公司将绝大部分计算资源、算法支持和数据规模向支撑 ChatGPT 的大型语言模型(LLM)倾斜。相比之下,原本处于前沿地位的视频生成模型 Sora 和图像生成模型 DALL-E 团队,因被认为与核心产品的相关性较低,正面临资源匮乏和项目边缘化的困境。

人才流失与内部博弈

这种“工程化”和“产品化”的转变在公司内部引发了严重的政治化倾向和学术分歧。近期离职的名单中包括了多位重量级人物:

  • 杰里·特沃雷克(Jerry Tworek): 负责模型推理(Reasoning)的研究副总裁,在 OpenAI 效力七年后离职。据悉,他关于“持续学习”的研究提案因与现有 LLM 架构不符而被首席科学家雅各布·帕乔基(Jakub Pachocki)否决。

  • 安德里亚·瓦隆(Andrea Vallone): 模型政策研究负责人,目前已加入竞争对手 Anthropic。

  • 汤姆·坎宁安(Tom Cunningham): 负责经济研究的专家,他的离开被视为 OpenAI 逐渐背离中立性研究、转向商业导向的标志。

商业护城河的转移

尽管内部研究环境备受质疑,但投资者似乎对此并不完全悲观。分析人士指出,OpenAI 的护城河已从单纯的技术领先转向了用户行为与平台锁定。目前,ChatGPT 拥有数亿用户,这种粘性可能比短期的技术优势更具商业价值。

然而,对于那些追求原创性和突破性研究的科学家来说,OpenAI 曾经的“科研乐土”形象正在崩塌。正如一位离职员工所言:“在残酷的商业竞赛中,公司已不再有放慢脚步进行探索的奢侈。”

最近一项名为 “人类终极考试”(HLE)的测试结果让我们重新审视 AI 的真实能力。根据《自然》杂志的报道,GPT-4o 在这 2500 道由全球专家出题的测试中,仅获得了可怜的 2.7 分(满分 100 分),而表现最好的 AI 模型也仅得 8 分。这一结果让人质疑,AI 的强大究竟是实打实的实力,还是表面的繁荣?

传统的 AI 测试越来越无法反映真实能力,主要原因有两个。一是 “基准饱和”,即 AI 系统已经将常规测试题目背得滚瓜烂熟,得分的高低与真正的理解能力无关;二是 “答案作弊”,很多测试的答案可以直接在网上找到,使得 AI 看似答对问题,但实际上只是依赖于检索和记忆,而非真正的推理能力。

为了解决这些问题,HLE 的设计者们集结了来自 50 个国家的近 1000 名专家,确保每道题目都要求深层的专业知识,难度大幅提升。HLE 的题目不仅覆盖了数学、物理、化学等多个领域,还设定了严格的审核流程,确保题目难度足够,难以被 AI 轻易破解。比如数学题需要深入逻辑推理,化学题涉及复杂的反应机制,绝不是简单的检索就能得到答案。

测试结果一目了然:GPT-4o 仅得 2.7 分,Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分别获得 4.1% 和 4.6% 的准确率,表现最好的 o1 也仅得 8%。这些数据清楚地表明,即便是最新一代的 AI,在面对真正需要深厚专业知识的问题时,依然显得无能为力。

通过 HLE 的测试,我们可以看到 AI 的真实能力与传统基准测试中的高分形成了鲜明对比。这也促使我们重新思考,AI 是否真的如我们想象中那样聪明,还是只是一种表象的成功。