谷歌DeepMind新研究TIPSv2:让AI真正"看懂"图片,而不只是"扫一眼"
现在的AI看图,其实有个隐藏的短板。问它"这张图里有什么",它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里",它就开始含糊了。这不是个别模型的问题,而是整个视觉-语言大模型领域长期存在的通病——全局理解强,局部定位弱。谷歌DeepMind在最新论文中提出了TIPSv2方案,专门来啃这块硬骨头。...
现在的AI看图,其实有个隐藏的短板。问它"这张图里有什么",它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里",它就开始含糊了。这不是个别模型的问题,而是整个视觉-语言大模型领域长期存在的通病——全局理解强,局部定位弱。谷歌DeepMind在最新论文中提出了TIPSv2方案,专门来啃这块硬骨头。...
DeepL是一家以其文本工具而闻名的翻译公司,今天发布了语音到语音翻译套件,涵盖会议、移动和网络对话以及通过自定义应用程序为一线工作人员进行群组对话等用例。该公司还发布了一个API,允许外部开发人员和企业在DeepL的技术之上构建定制用例,例如呼叫中心。 DeepLCEOJarek Kutylow...
4月16日,京东在具身智能生态发布会上正式推出JoyEgoCam超高清采集终端。作为专门针对AI具身智能训练开发的硬件产品,JoyEgoCam不仅标志着超高清采集技术的落地,更成为了全球首个覆盖“采、存、标、训、评、仿、测”全链路的具身智能数据基础设施,旨在打通从物理世界数据获取到模型仿真评测的全闭...
视频生成速度慢、成本高,一直是AIGC领域的痛点。腾讯混元团队这次给出了一个新的解法。腾讯混元正式开源了全新视频生成加速方案DisCa,代码与模型权重均已公开可用。这项工作已被计算机视觉顶会CVPR2026收录,也是学界和业界首次在蒸馏后少步模型上探索可学习特征缓存加速技术的尝试。DisCa的核心思...
近日,盖洛普公司发布的一项调查报告显示,近一半的美国员工在工作中至少偶尔使用人工智能技术。这一比例较上一季度的 46% 有所增加,达到了公司记录中的最高值。调查涵盖了超过 23700 名员工,结果显示,人工智能的应用正在逐渐深入职场,并对组织结构产生了影响。在频繁使用人工智能的员工中,每日使用的比例...
初创公司 Hightouch 成立于七年前,近期推出了一项人工智能驱动的服务,使得营销人员能够为知名品牌如 Domino's、Chime、PetSmart 和 Spotify 创建个性化内容,完全无需依赖设计团队或广告公司。自从推出这款 AI 产品以来,Hightouch 的年度经常性收入(ARR)...
近日,OpenAI 对其 Agents SDK 进行了重磅更新,旨在帮助企业更安全、更高效地构建智能代理。这一更新背景下,智能代理技术的应用越来越受到企业的青睐,各大公司纷纷寻求工具以创建自动化助手。更新后的 SDK 引入了多项新功能,其中最引人注目的是沙箱功能。这一功能允许智能代理在一个受控的计算...
一份安全报告,让AI开发者圈子里绷紧了一根弦。网络安全公司OX Security于4月15日发布调查报告,披露Anthropic的MCP(模型上下文协议)存在架构层面的设计缺陷,可导致远程代码执行,影响超过20万台AI服务器。MCP是Anthropic于2024年11月推出的开源标准,旨在让AI大模...
在第十三届中国网络视听大会上,湖南广播电视台董事长龚政文晒出了一份颇为亮眼的成绩单。用户规模方面,芒果TV有效会员数量已突破7560万,这个数字在当前流媒体竞争白热化的背景下,含金量不低。更值得关注的是AI层面的进展。湖南广电自研的"芒果大模型"已孵化出80余款智能体,并实际应用于30多档节目的生产...
4月16日,蚂蚁灵波科技正式宣布开源流式三维重建模型 LingBot-Map。该模型突破性地实现了仅依靠单个普通 RGB 摄像头,即可在视频采集过程中实时估计相机位姿并重建场景三维结构。这一进展为机器人导航、自动驾驶及 AR 硬件等需要即时空间感知的应用场景,提供了高效、稳定且连续的在线建图能力。技...
阿里巴巴 ATH 团队今日于 X 平台宣布,其全新开放世界模型产品 Happy Oyster 正式开启早期体验申请。作为继 HappyHorse 之后的又一重磅发布,Happy Oyster 主打实时世界的创建与交互能力,标志着阿里巴巴 ATH 的技术布局已从纯粹的视频生成领域,进一步延伸至更具挑战...
报道 | 2026 年 4 月 16 日过去几个月,Anthropic 的更新节奏已经快到让人有点跟不上——从 1 月开始几乎两周一个大动作,模型、Claude Code、Cowork、Excel 插件一路推过来。现在风声又紧了一波:据 The Information 率先披露,Claude Op...
在2026年的 AI 智能体领域,一款名为 “Hermes” 的新兴产品正引发广泛关注。这款由 Nous Research 团队开发的 Hermes Agent,目前其GitHub 上获得了惊人的9W+ 颗星标,显示出其强大的市场吸引力。与曾经的开源智能体领军者 OpenClaw(龙虾)相比,Her...
距离小米18系列正式发布还有约五个月,但关于小米18Pro的料已经开始陆续流出了。这次曝光的内容有两个看点。一是机身背部渲染图,从图中可以看到,小米18Pro延续了此前的设计思路,背部依然是三摄组合,后置副屏也得以保留。不过需要说明的是,这组渲染图属于早期版本,未必代表最终量产外观,看个大致方向就好...
送外卖、送药、现在要管你的健康——美团的边界,又往外扩了一圈。4 月 14 日,美团正式推出"小团健康管家",一款聚焦家庭健康管理的AI产品,宣告这家本地生活巨头全面入局AI医疗赛道。这一步走得并非毫无铺垫。早在 2024 年,美团就已深度布局"药物即时配送",在医药到家这个环节建立起相当的先发优势...
MiniMax稀宇科技于4月16日正式发布全球首个云端沙箱MaxHermes。这款基于Hermes Agent构建的自我进化AI助手,彻底打破了传统AI能力固定的局限,实现了“越聊越懂你”的深度交互体验。MaxHermes的核心竞争力在于其独特的学习闭环机制。每当完成一项复杂任务,它会自动提炼出可复...
腾讯正式推出混元3D 世界模型2.0(HY-World2.0),并将其开源。该模型具备多模态能力,能够根据文本、图片和视频等不同输入形式,自动生成、重建和模拟3D 世界。这一创新产品支持多种格式的3D 资产导出,包括 Mesh、3DGS 和点云,能够与现有游戏工作流无缝衔接,帮助开发者快速生成游戏地...
上周,人工智能公司 Anthropic 引发广泛关注,宣布其最新模型 Mythos 在发现安全漏洞方面表现出色,甚至可能引发混乱。为了防止这种混乱的发生,Anthropic 启动了名为 Project Glasswing 的计划,允许 50 多家行业合作伙伴测试这一先进的模型,以便在网络攻击者利用这...
人工智能教育科技公司Gizmo近日宣布,已成功完成2200万美元的A轮融资。自2021年面世以来,该平台凭借将学生笔记转化为互动学习资料的创新功能,迅速吸引了全球120多个国家的超过1300万用户,增长势头异常迅猛。本轮融资由Shine Capital领投,多家知名风投机构参与跟投。Gizmo计划利...
近日,硅谷 AI 实验室 Nous Research 旗下的爆火项目 Hermes Agent 陷入架构抄袭争议。中国 AI 团队 EvoMap 公开发文指控,称 Nous Research 系统性复制了其自进化引擎 Evolver 的架构设计,且在公开材料中未作任何引用。目前,该指控在社交平台已获...