2025年8月

官方介绍称,Qoder 集成了全球顶尖的编程模型,提供最强的上下文工程能力,可一次检索 10 万个代码文件。基于强大的编程智能体,可实现 AI 自主研发,大幅提升真实软件的开发效率。使用 Qoder 开发一个电商网站的前后端,可将原本需要数天的工作缩短到十分钟。

图片

  • 内置代码检索引擎,可检索 10 万个代码文件;

  • 率先支持 Repo Wiki,将代码工程的隐性知识显性化,方便开发者和 AI 理解;

  • 集成长短期记忆系统,可基于会话历史总结项目经验和个人偏好,并将信息存储为一个“笔记”,实现自我学习和进化,最终让 AI 执行结果更符合用户预期和偏好。

图片

例如,用户在开发过程中有“完成任务后要生成单元测试”、“完成任务后提供详细报告”等要求,Qoder 会理解用户习惯并形成记忆,在后续执行任务时自动完成这些工作。

除了提供 Ask Mode(问答模式)和 Agent Mode(智能体模式)之外,Qoder 新增了全新的 Quest Mode(AI 自主编程)。基于 Quest Mode,Agent 可扮演全栈工程师的角色,自动将模糊、抽象的需求转换为详尽的设计规范,自主完成研发任务。

在 Quest 模式下,用户将体验到全新的开发范式。开发者确定需求后通过 Agent 编写详细的任务说明(Spec),然后将任务委派给 Agent 执行,开发者最终只需要验收或必要的修改,让复杂任务的开发效率提升 10 倍以上

IT之家查询 Qoder 官网,Qoder 支持 Windows 和 macOS 版本,目前可免费使用,详细定价计划即将推出


8 月 22 日,钉钉、通义实验室语音团队宣布,联手推出新一代语音识别大模型 Fun-ASR,能听懂家装、畜牧等十大行业黑话,并支持企业专属模型定制训练。基于双方深度共建,Fun-ASR 能够准确转写各种语音信号,具备识别多行业术语、不同语言与口音的能力,也能结合上下文信息实现更精准的转录,并支持企业专属模型定制训练,让模型更懂企业场景。


目前,Fun-ASR 已被集成进钉钉的多个功能模块,包括会议字幕与同传、智能纪要、语音助手等旨在构建一套稳定、高效、易扩展的语音识别基座,尤其适用对企业级语境理解、识别准确率有较高要求的场景。


图片


技术层面看,Fun-ASR 语音识别大模型的核心亮点在于三方面:


图片

该模型经过上亿小时音频数据的训练,并结合钉钉多行业客户的真实场景共创,能够准确理解互联网、科技、家装、畜牧、汽车等十多个领域的专业术语。


实测数据显示,Fun-ASR 在保险行业的准确率较以往提升 18%,在家装、畜牧等行业也实现了 15%-20% 的提升。针对生僻词汇,Fun-ASR 还提供企业自定义热词能力,最多可支持 1000+ 热词导入。


图片

Fun-ASR 可结合企业在钉钉内的已有信息如通讯录、日程、知识库等,进行推理优化,有效缓解大模型造成的幻觉,提供更可靠的转写结果。该能力需经企业授权后方可生效。


图片

基于高效的端到端训练架构,该模型可利用企业提供的真实场景语音数据进一步做算法优化,以提升如品牌名、项目代号、产品名、人名等专属词汇的识别准确率。


以顾家家居与钉钉的合作为例,经过专属训练后,在顾家的门店销售给客户讲解产品时,该模型能够准确识别“比利时进口 Pulse 脉冲乳胶”、“独创 Sonocore 发泡工艺”等专业表述,为后续对客户需求的进一步分析提供可靠依据。


对于此次合作,通义实验室语音团队负责人李先刚表示:“我们很高兴能够与钉钉携手,共同推动语音识别技术在企业场景中的创新和应用。未来,我们将持续扩大 Fun-ASR 的数据和模型规模,不断提升大模型语音智能解决方案的可复制能力,为企业客户带来更高效、智能的产品体验。”  


钉钉 CTO 朱鸿也表示,“钉钉和通义团队仅用三个月的紧密协作,就实现了 Fun-ASR 模型的成功落地,并赢得了头部客户的高度认可。这是我们迈向行业领先的一次关键突破,也将为更多钉钉客户企业打造专业定制大模型提供可参考的范例。”



目前,Fun-ASR 的潜力尚未被穷尽,双方将继续探索在方言识别、噪声鲁棒性、多语种支持及企业深度定制等方向的升级工作,不断提升语音转写的精准度和实用性,为更多企业业务场景的智能升级赋能。


8月21日,据彭博报道,AI初创公司Anthropic正接近达成一项高达100亿美元的新融资协议,较此前报道的50亿美元目标翻倍,凸显投资者对生成式AI领域的强烈信心。

顶级投资机构争相入局

本轮融资由投资公司Iconiq Capital领投,TPG、Lightspeed、Spark Capital和Menlo Ventures等多家知名投资机构有意参与。值得关注的是,卡塔尔投资局和新加坡政府投资公司GIC等主权基金也在商谈加入,显示出国际资本对AI技术前景的高度认可。

据悉,Anthropic最初寻求按1700亿美元估值融资至多50亿美元,但投资者的强劲兴趣推动公司将融资目标大幅上调至100亿美元。该轮融资谈判仍在进行中,最终金额可能发生变化。

202310180948538535_0.jpg

技术领先地位推动估值飞跃

Anthropic估值的大幅提升主要源于其在生成式AI领域的技术领先地位。该公司开发的Claude大语言模型系列在行业内获得广泛认可,特别是在智能代理系统方面的技术突破,为其赢得了投资者青睐。Claude已与Google的Gemini、OpenAI的ChatGPT一起,成为美国批准政府机构使用的三项AI服务之一。

据公司向部分投资者披露的数据,Anthropic的年化收入在今年上半年增长了四倍,已超过40亿美元。这一增长势头表明,尽管整个行业仍在巨额投入阶段,但头部AI公司已展现出强大的商业化能力。

AI巨头军备竞赛愈演愈烈

这轮融资将为Anthropic与OpenAI、马斯克的xAI之间的激烈竞争提供充足资金支持。今年以来,这些AI公司均筹集了数十亿美元资金,用于投资数据中心基础设施和招募顶尖人才来开发下一代AI模型。

Anthropic由OpenAI前员工于2021年创立,定位为可靠、注重安全的AI公司。今年早些时候,该公司在由Lightspeed领投的35亿美元融资中获得615亿美元估值。新一轮融资完成后,其估值将实现近三倍跳升,进一步巩固在全球AI开发商中的领先地位。

这一融资规模的大幅增长反映了投资市场对生成式AI技术商业化前景的乐观预期,同时也预示着AI领域的竞争将更加白热化。


在最近的一次对话中,亚马逊网络服务(AWS)首席执行官马特・加尔曼(Matt Garman)表示,用人工智能(AI)替代初级员工的想法是 “我听过的最愚蠢的事情”。加尔曼与 AI 投资者马修・伯曼(Matthew Berman)讨论了 AWS 的 Kiro AI 辅助编码工具,并提到了一些企业领导者认为 AI 可以取代公司内所有初级员工的观点。

202302031031488526_0.jpg

对此,加尔曼质疑道:“那么,未来十年后,你们将会有谁来学习?” 他认为,初级员工通常是公司中最便宜的员工,而且他们与 AI 工具的接触最为紧密。他强调:“我们应该继续从大学招募年轻人,教他们如何正确地构建软件、分析问题。”

加尔曼还对另一种关于 AI 的观点表示反对,即用 AI 在组织中生成的代码比例来衡量其价值。他称这是一种 “愚蠢的指标”,因为虽然组织可以利用 AI 编写 “无限多的代码”,但这些代码可能质量不高。“往往更少的代码更好,而不是更多的代码。” 他表示,“我从未明白为什么这个指标能引起人们的兴趣。”

尽管如此,加尔曼注意到,超过80% 的 AWS 开发者以某种方式使用 AI。他提到,AI 的应用不仅限于编写代码,还包括编写单元测试、帮助撰写文档,以及开发者与 AI 代理的协作工作。他指出,AWS 开发者每周使用 AI 工具的频率都在不断增加。

在谈到职业发展的建议时,加尔曼提到,现代年轻人需要学习如何学习,而不仅仅是掌握特定技能。“应该强调的技能包括:如何独立思考?如何发展解决问题的批判性思维能力?如何培养创造力?如何养成终身学习的心态?” 他认为,随着技术的快速发展,单靠狭窄的技能难以维持30年的职业生涯。他希望教育者能够教导学生如何思考以及如何分解问题,认为掌握这些技能的年轻人将能在未来获得成功。



腾讯元宝宣布正式接入最新版本的 DeepSeek V.1,用户现可通过电脑版和网页版提前体验这一升级带来的强大功能。这一新模型的发布标志着腾讯在人工智能领域的又一重要进展,旨在为用户提供更高效、更智能的服务。

DeepSeek V3.1的更新主要带来了两大突破。首先,在思考速度上,新版本的 DeepSeek V3.1-Think 显著提升了响应时间,能够在更短的时间内给出答案。这一改进使用户能够更快速地抓住灵感,提升工作效率。无论是在日常生活中的疑问,还是在工作中遇到的复杂任务,DeepSeek V3.1都能为用户提供及时的解决方案。

QQ20250822-145811.png

其次,新模型的智能助手能力得到了大幅增强。DeepSeek V3.1不仅能够更好地理解和处理用户的需求,还具备更强的工具使用能力,能够帮助用户轻松应对各种复杂任务。这使得无论是学术研究、商务策划,还是日常生活中的各种问题,用户都能在 DeepSeek 的辅助下迅速找到答案。

腾讯元宝团队表示,他们将继续致力于产品的优化与迭代,以期为用户带来更加优质的 AI 体验。团队强调,DeepSeek 不仅仅是一个信息查询工具,更是用户在工作和生活中不可或缺的智能助手。通过持续的更新与改进,腾讯希望能够满足用户日益增长的需求。


AI视频生成技术正在迎来一个决定性的转折点。当创作者们还在为AI视频的随机性和不可预测性而苦恼时,可灵AI已经用实际行动给出了完美的解决方案。基于全新2.1模型的首尾帧功能正式发布,这一技术突破以235%的效果提升幅度,彻底改变了AI视频创作的游戏规则,让精准可控的视频生成从梦想照进了现实。

这个235%的提升数字背后隐藏着技术革命的深刻含义。对于熟悉AI视频生成技术的专业人士而言,这样的性能飞跃几乎是不可思议的。要知道,从1.6模型到2.1模型的迭代过程中,可灵AI不仅在算法架构上进行了根本性的重构,更在训练数据的质量和规模上实现了质的突破。这种全方位的技术升级最终体现为用户体验的巨大改善,让AI视频生成从粗糙的概念验证工具真正蜕变为专业级的创作平台。

image.png

首尾帧功能的核心价值在于它赋予了创作者前所未有的视频控制能力。传统的AI视频生成往往像是一场技术赌博,用户输入文字描述后,只能被动等待系统生成结果,无法对视频的具体走向进行精准把控。而可灵AI的首尾帧技术彻底打破了这种被动局面,创作者现在可以明确指定视频的起始画面和结束画面,让AI在这两个关键节点之间生成流畅自然的过渡内容。

这种精准控制能力的实现并非简单的技术拼接,而是基于深度学习算法对视频时空连续性的深刻理解。2.1模型通过分析海量的视频数据,学会了如何在给定的首尾约束条件下,生成既符合物理规律又富有创意表现力的中间帧序列。每一帧画面的生成都要考虑到与前后帧的连贯性,确保整个视频呈现出丝滑流畅的视觉效果。

image.png

广告营销领域将成为这一技术突破的最大受益者之一。品牌方现在可以精确控制广告视频的开场和结尾画面,确保品牌元素和核心信息得到完美呈现,同时让AI发挥创意优势,生成引人入胜的中间过渡内容。这种人机协作的创作模式不仅大大提升了广告制作的效率,更让创意表达变得更加丰富多样。

影视制作行业同样将从中获得巨大价值。导演和制片人可以利用首尾帧功能快速制作概念预览片段,在正式拍摄前就能向投资方和团队成员展示具体的视觉效果。这种快速原型制作能力不仅降低了前期沟通成本,更为创意决策提供了直观的参考依据。特别是在需要大量特效镜头的科幻和奇幻题材中,AI生成的预览内容能够帮助创作团队更好地规划拍摄方案和后期制作流程。

短剧创作者们也将迎来全新的创作可能性。在这个内容为王的时代,短剧创作者需要在有限的时间和预算内制作出吸引观众的精彩内容。可灵AI的首尾帧功能让他们能够快速生成各种场景转换和情节推进的视频片段,大大降低了创作门槛,让更多有创意想法但缺乏技术资源的创作者能够实现自己的艺术愿景。

动画制作领域的变革更加深刻。传统动画制作需要大量的手工绘制和繁琐的后期处理,而AI技术的介入正在改变这一现状。动画师现在可以专注于关键帧的设计和创意构思,将中间帧的生成工作交给AI完成。这种分工协作不仅提升了制作效率,更让动画师能够将更多精力投入到故事情节和角色塑造等核心创意工作中。

技术层面的突破也为整个AI视频生成行业树立了新的标杆。235%的效果提升不仅仅是数字上的飞跃,更代表了算法优化、数据质量改善、计算效率提升等多个维度的全面进步。这种技术领先优势将帮助可灵AI在激烈的市场竞争中占据有利位置,同时也推动整个行业向更高的技术水准迈进。

可灵AI首尾帧功能的发布标志着AI视频生成技术进入了一个全新的发展阶段。从早期的完全随机生成到现在的精准可控创作,这个技术演进过程体现了人工智能在创意产业中的巨大潜力。随着技术的持续完善和应用场景的不断扩展,我们有理由相信,AI辅助的视频创作将成为未来内容产业的重要组成部分,为创作者们开启一个充满无限可能的数字创意新时代。


8月20日,即梦AI(网页版)正式上线全新视频生成能力“智能多帧”,该功能以多图驱动为核心,旨在解决当前AI视频创作中长镜头生成难的问题,为用户带来流畅、连贯的一镜到底视频创作体验。

智能多帧最多可支持添加10张关键帧画面

当前,多数视频生成类工具仅支持5秒或10秒的短视频生成,难以满足创作者流畅叙事的需求。用户为拼接长视频,经常需要将多段首尾帧视频进行剪辑拼接,很容易产生明显的“刹车感”。单纯延长视频生成时长也有可能存在画质下降、运镜方向不一致等问题,效果难以保障。

即梦“智能多帧”功能的推出,有望打破上述行业困境,为AI视频创作领域注入新的活力,助力用户更高效、高质量地完成长镜头视频创作。

关键帧之间可以通过提示词控制运镜方式

“智能多帧”支持用户上传2-10张关键帧图像,模型会自动识别图像内容,并结合用户输入的提示词与设定的每帧停留时长,生成空间连续、运镜流畅且节奏合理的一镜到底视频。用户可通过自由调整帧间时长把控内容节奏,配合运镜提示词让镜头衔接更自然。

该功能广泛适用于空间运镜、产品展示、角色动态、叙事等多种场景,尤其在商业广告连续镜头、潮玩新品展示、空间漫游运镜、舞蹈动作延展等需要长镜头衔接的创作中,能实现画面自然流畅、节奏统一的效果。创作者梅森体验后评价说:“这个功能真的很惊艳,有效解决了做Al视频总头疼的关键帧跳帧、前后内容断层问题,整个体验流畅又省心。”


3D建模行业的变革时刻终于到来。当传统建模师还在为复杂的几何构建和纹理贴图而日夜奋战时,VAST公司已经用人工智能技术彻底改写了这个领域的游戏规则。Tripo3.0版本的正式发布,不仅标志着AI驱动的3D内容创作进入了全新发展阶段,更以其惊人的用户规模和数据积累向整个行业展示了技术革命的磅礴力量。

这场技术革命的规模令人叹为观止。VAST旗下的AI3D大模型已经成功服务了超过300万名全球专业开发者,这个庞大的用户群体横跨游戏开发、影视制作、建筑设计、工业设计等众多专业领域。更加令人瞩目的是,已有700多家大型企业客户选择将VAST的技术解决方案整合到自己的核心业务流程中,这充分证明了AI3D建模技术已经从实验室走向了大规模商业应用。

数据的力量在VAST的发展历程中体现得淋漓尽致。累计生成的高质量3D原生数据集已经突破了4000万个的惊人规模,这些海量数据不仅是VAST技术实力的最佳证明,更是推动AI模型持续优化和迭代升级的宝贵资源。每一个3D模型的生成过程都在为整个系统积累经验和知识,形成了一个不断自我完善的技术生态循环。

1.jpg

图源备注:图片由AI生成,图片授权服务商Midjourney

Tripo3.0版本的推出代表着VAST在技术创新道路上的又一次重大飞跃。虽然官方尚未披露具体的技术细节和功能特性,但从其前代产品的卓越表现来看,这个新版本必将在建模精度、生成速度、材质表现等关键指标上实现新的突破。对于那些依赖高质量3D内容的创意工作者而言,Tripo3.0无疑将成为他们创作工具箱中最强大的武器。

VAST的成功不仅仅是一家公司的胜利,更是整个AI3D建模行业发展成熟的重要标志。300万开发者的信任选择和700多家企业客户的深度合作,充分说明了AI技术在3D内容创作领域已经从概念验证阶段进入了大规模产业化应用阶段。这种规模化的商业成功为整个行业树立了发展标杆,也为其他技术公司指明了前进方向。

4000万个高质量3D数据集的积累更是具有里程碑式的意义。在人工智能时代,数据就是技术进步的燃料,而VAST所积累的这些海量3D数据不仅数量庞大,更重要的是质量上乘。这些经过精心生成和验证的3D模型涵盖了从简单几何体到复杂场景的各种类型,为AI模型的训练和优化提供了无与伦比的丰富素材。

从行业发展的角度来看,VAST Tripo3.0的发布时机恰到好处。当前,元宇宙概念方兴未艾,游戏产业蓬勃发展,虚拟现实技术日趋成熟,这些都为3D内容创作技术创造了巨大的市场需求。VAST凭借其领先的技术优势和丰富的数据积累,正好能够满足市场对高效、高质量3D内容生成工具的迫切需求。

对于广大开发者而言,Tripo3.0的推出意味着他们将拥有更加强大和便捷的3D创作工具。无论是独立游戏开发者需要快速构建游戏场景,还是建筑师希望将设计理念快速可视化,抑或是电商平台需要为产品生成精美的3D展示模型,Tripo3.0都能够提供专业级别的解决方案,大大降低了3D内容创作的技术门槛和时间成本。

企业级客户的广泛采用更是验证了VAST技术方案的商业价值和实用性。这700多家大企业客户的选择绝非偶然,而是经过严格评估和实际应用验证后的理性决策。这种大规模的企业级应用不仅为VAST带来了稳定的收入来源,更重要的是在实际业务场景中不断锤炼和完善了技术解决方案的成熟度和可靠性。

随着Tripo3.0的正式发布,VAST在AI3D建模领域的领先地位将进一步巩固。这个拥有4000万数据集支撑、服务300万开发者、获得700多家企业信赖的技术平台,正在用实际行动证明人工智能技术在创意产业中的巨大潜力。在这个技术快速迭代的时代,VAST Tripo3.0的问世无疑将为整个3D内容创作生态注入新的活力,推动行业向着更加智能化、高效化的方向发展。


  AIbase报道 特斯拉正为其车辆语音助手功能引入更强AI能力。根据特斯拉中国官网最新更新的《特斯拉车机语音助手使用条款》,官方首次明确其语音助手将接入外部大模型技术,合作伙伴包括字节跳动旗下的火山引擎和人工智能公司DeepSeek。

  双重AI技术加持智能交互

  条款内容显示,特斯拉语音助手将得到火山引擎提供的Doubao大模型(云雀大模型)和DeepSeek Chat的技术支持。这一技术升级标志着特斯拉在智能座舱领域迈出重要一步,将传统的车控命令扩展至更丰富的AI对话体验。

  升级后的语音助手功能将实现质的飞跃。在具备AI互动能力的特斯拉车辆上,车主不仅能通过语音命令控制车辆功能,未来还将能与语音助手进行轻松聊天,获取资讯、查询天气等信息,实现更加自然流畅的智能座舱交互体验。

  多样化激活方式提升便利性

  据悉,车主可通过物理按键或"嘿,Tesla"等唤醒词激活该功能,为用户提供了灵活多样的交互入口。这种设计既保留了传统操作习惯,又融入了现代化的语音唤醒体验,充分考虑了不同用户的使用偏好。

  值得注意的是,特斯拉选择与火山引擎和DeepSeek两家技术实力雄厚的AI公司合作,体现了其对中国AI技术能力的认可。火山引擎的Doubao大模型在多轮对话和语义理解方面表现出色,而DeepSeek在AI推理能力上也有显著优势,双重技术加持将为特斯拉用户带来更智能、更贴心的车载AI体验。

  目前,官方暂未公布AI互动功能的具体上线时间,但这一升级预示着特斯拉在智能汽车领域将进一步强化其技术优势,为用户提供更加完善的智能出行解决方案。


  近日,特斯拉与字节跳动旗下火山引擎达成重要合作,双方将共同为特斯拉在国内市场的智能座舱交互体验注入新活力。根据合作内容,火山引擎将为特斯拉提供大模型服务,助力其车机系统实现智能化升级。

  据特斯拉中国官网最新更新的《特斯拉车机语音助手使用条款》披露,全新上市的特斯拉Model Y L车型将率先搭载豆包大模型与DeepSeek模型,两款国产大模型均通过火山引擎实现接入。这一举措标志着特斯拉在中国市场正式引入国产大模型技术,以提升其车机系统的智能化水平。

  根据条款说明,每辆特斯拉车辆均配备了先进的语音助手功能。车主可通过物理按键、语音指令“嘿,Tesla”或自定义唤醒词轻松激活车机语音助手,实现与车辆的语音交互。其中,豆包大模型将承担起语音命令的核心功能,包括导航设定、媒体播放操控、空调温度调节等实用操作,同时还具备车主手册查询功能,为车主提供便捷的信息查询服务。而DeepSeek模型则专注于提供AI语音闲聊服务,进一步丰富车主的驾驶体验。

  8月22日,Moonshot AI宣布其Kimi K2模型的输出速度再次取得重大突破。经过工程师团队的不懈努力,kimi-k2-turbo-preview模型的输出速度已经提升至每秒60个Tokens,最高可达每秒100个Tokens。这一显著的速度提升,将进一步优化用户体验,满足更多场景下的高效需求。

微信截图_20250822162306.png

  目前,kimi-k2-turbo-preview模型仍然享受5折特惠价格。模型每百万Tokens输入价格(缓存命中)为2.00元,输入价格(缓存未命中)为8.00元,输出价格为32.00元。这一优惠价格将持续至9月1日,之后将恢复原价。

  Moonshot AI在公告中表示,感谢用户的持续支持与信任,公司将继续致力于优化模型性能,进一步提高Kimi K2模型的输出速度。用户可以访问Moonshot AI官网(https://platform.moonshot.cn)获取更多详细信息。

  此次提速不仅是技术上的进步,更是Moonshot AI对用户需求的积极回应。随着模型性能的不断提升,Kimi K2将为用户提供更高效、更流畅的AI体验,助力用户在工作和生活中实现更高的效率和创造力。


  近日,谷歌宣布将加入到与美国政府的 AI 服务折扣竞赛中,推出针对政府机构的特惠方案,价格仅为每个机构0.47美元。这一举措让谷歌在与 OpenAI 和 Anthropic 等竞争对手的较量中抢占了先机。OpenAI 和 Anthropic 此前的折扣为每个机构1美元,谷歌此次的低价策略可谓大幅度让利。

201811151621147122_90 (1).jpg

  此次谷歌的优惠价格是通过美国总务管理局(GSA)的一项名为 “OneGov” 的采购策略实现的。此策略旨在简化联邦机构的产品采购流程。想要使用谷歌 Gemini AI 的政府机构,只需遵循 GSA 事先为整个联邦政府谈判好的条款,无需与谷歌重新建立协议。这一便利的采购方式吸引了众多政府机构的关注。

  不过,值得注意的是,与 OpenAI 和 Anthropic 的折扣协议一样,谷歌的0.47美元特惠也仅在一年内有效。对于那些在折扣期间签约并依赖这些服务的机构而言,未来的费用和服务内容却不明确,留下了不小的隐忧。谷歌的一位发言人表示,虽然尚不清楚未来的情况,但会在折扣期结束前进行探讨。

  与此同时,行业内对于这种极具竞争力的折扣协议也引发了担忧。前空军和太空军首席软件官尼古拉斯・查兰(Nicolas Chaillan)指出,这种低价策略可能会导致政府机构对单一供应商的依赖,从而造成未来更高的成本和风险。他还提到,与 OpenAI 和 Anthropic 的合同仍然是私密的,政府并未公开这些信息。

  对于谷歌的 AI 服务包,GSA 特别指出,除了基本的 AI 服务外,政府机构还将获得视频和图像生成能力的支持。这一额外功能的加入,引发了部分人的担忧。


  近日,InternLM 团队正式发布了其开源的轻量级多模态推理模型 ——Intern-S1-mini。该模型参数仅为8B,结合了先进的 Qwen3-8B 语言模型与0.3B 视觉编码器 InternViT,展现出强大的处理能力和灵活性。

  Intern-S1-mini 经过了大规模的预训练,总共使用了超过5万亿的 token 数据。其中,令人瞩目的是,超2.5万亿 token 来自于化学、物理、生物和材料等多个科学领域。这使得 Intern-S1-mini 不仅能进行常规的文本和视觉输入处理,更能解析复杂的分子式、蛋白质序列,并有效规划合成路径,展示出其在科学研究领域的广泛应用潜力。

image.png

  根据官方提供的基准测试结果,Intern-S1-mini 在多个领域的任务表现上均超过了同类模型。在 MMLU-Pro、MMMU、GPQA 以及 AIME2024/2025等任务上,该模型的表现令人惊叹,ChemBench 分数达到76.47.MatBench 分数为61.55.而 ProteinLMBench 则是58.47.这些成绩不仅证明了 Intern-S1-mini 的强大实力,更表明它在文本、图像和视频输入方面的兼容性。

  有趣的是,Intern-S1-mini 默认开启了 “思考模式”,用户可以通过简单的开关命令(enable_thinking)来切换。这种设计让模型的交互性更强,为用户带来了更灵活的使用体验。

  在科技飞速发展的今天,Intern-S1-mini 的发布无疑为研究人员和开发者们提供了一个新的工具,助力他们在多模态推理领域实现更多创新与突破。无论是在基础研究还是实际应用中,这一模型都将是一个值得关注的焦点。


  人工智能训练数据的合法性争议终于演化成了一场震撼硅谷的法律风暴。美国加利福尼亚州法院最近受理的一起诉讼案件,将全球科技巨头Meta推到了舆论的风口浪尖。两家成人影片制作公司Strike3和Counterlife Media的联合起诉,不仅揭露了AI训练背后的数据获取黑幕,更以高达3.59亿美元的索赔金额,为整个科技行业敲响了版权保护的警钟。

  这起诉讼的核心指控令人震惊。根据法庭文件显示,Meta公司自2018年以来一直在明知故犯地从盗版来源下载受版权保护的影片内容,累计涉及至少2396部作品。这些非法获取的视频资料被用于训练包括Meta Movie Gen视频生成模型和LLaMA语言大模型在内的多种AI系统,为Meta的人工智能技术发展提供了重要的数据支撑。

  更加令人意外的是Meta获取这些内容的方式。起诉文件详细披露,Meta并非简单地下载这些盗版内容,而是主动利用BitTorrent文件共享技术进行大规模的非法内容获取。这种P2P下载方式的特殊之处在于,下载者同时也会成为内容的分发者,通过"种子"技术向网络中的其他用户传播相同的文件。

  Meta选择这种下载方式绝非偶然。BitTorrent协议的核心优势在于其分布式下载机制能够显著提升大文件的传输速度,这对于需要处理海量视频数据的AI训练项目而言具有重要价值。然而,这也意味着Meta不仅仅是被动的内容接收者,更是主动的盗版内容传播者,其行为的恶劣性质因此被进一步放大。

  原告方的律师团队在起诉书中强调,Meta完全有能力通过合法途径获取所需的训练数据。无论是直接购买版权授权,还是修改下载工具的设置以避免传播行为,Meta都拥有多种合规选择。然而,该公司却选择了最具争议的方式持续进行非法下载和传播活动,这种明知故犯的行为模式充分显示了其侵权的故意性。

  这起诉讼案件并非孤立事件,而是近年来AI公司版权争议的最新爆发点。此前已有多位知名作家对Meta提起类似诉讼,指控其未经许可使用受版权保护的文学作品训练AI大模型。值得注意的是,在那些案件的法庭审理过程中,Meta已经公开承认确实曾从盗版来源获取过训练内容。这一承认不仅为当前的诉讼提供了重要的法律依据,也让Meta在这起新案件中处于更加被动的地位。

  Strike3公司在这起诉讼中的角色转变具有重要的象征意义。作为美国最活跃的版权维权机构之一,Strike3长期以来主要专注于起诉个人盗版用户,通过大量的民事诉讼来维护版权方的合法权益。然而,此次将矛头直指Meta这样的科技巨头,标志着版权保护战线正在向更高层面扩展,传统的版权维权策略开始适应AI时代的新挑战。

  3.59亿美元的索赔金额虽然数字庞大,但其计算依据相当清晰。按照美国版权法的相关规定,每部被侵权作品的法定赔偿金最高可达15万美元,而2396部涉案影片的总赔偿金额上限正好接近这一数字。这种按作品数量累计的赔偿方式,充分体现了版权法对批量侵权行为的严厉态度。

  对于Meta而言,这起诉讼的影响远超经济层面的损失。作为全球领先的科技公司,Meta在人工智能领域的投资规模巨大,其AI产品的竞争力很大程度上依赖于高质量训练数据的获取。如果法庭最终认定Meta的数据获取方式违法,这不仅会对公司的财务状况造成直接冲击,更可能迫使其重新审视整个AI训练数据的获取策略。

  这起诉讼案件的更深层意义在于它可能成为AI行业版权规范的重要转折点。随着人工智能技术的快速发展,训练数据的需求量呈现爆炸式增长,而现有的版权法律框架显然还没有完全适应这种新兴技术的发展需求。Meta案件的审理结果很可能为整个行业的数据使用规范确立重要的法律先例。

  目前,Meta公司尚未对这起诉讼作出正式回应,但业界普遍认为这将是一场持续时间较长的法律拉锯战。无论最终结果如何,这起案件已经向所有AI公司发出了明确信号:在追求技术进步的同时,必须严格遵守版权法律的相关规定,否则将面临巨大的法律和经济风险。

  在人工智能技术日益成为各行各业核心竞争力的今天,如何平衡技术创新与版权保护之间的关系,已经成为整个社会必须面对的重要课题。Meta的这起诉讼案件,无疑将为这个复杂问题的解决提供重要的实践参考。


  近日,月之暗面发布了有关 Kimi K2 高速版 AI 模型的最新消息。经过工程师们的努力,Kimi K2 turbo-preview 模型的输出速度得到了显著提升,目前稳定输出速度已达到每秒 60 Tokens,最高可达每秒 100 Tokens。这一进步标志着该模型在处理数据时的效率大幅提高,用户在应用时能够体验到更为流畅的服务。

  Kimi K2 是月之暗面推出的一款基于 MoE(Mixture of Experts)架构的基础模型,具备强大的代码生成能力和出色的通用代理(Agent)任务处理能力。该模型的总参数量达到 1 万亿,其中激活参数为 320 亿。Kimi K2 于 8 月 1 日正式发布,并在发布时以每秒 10 Tokens 的速度运行。经过优化,现已提升至每秒 40 Tokens,并在此基础上进一步增强,现已达到 60 Tokens 的稳定输出。

  为了吸引更多用户使用,Kimi K2 高速版在当前阶段还提供了五折特惠的价格。模型的输入费用分为两种情况,缓存命中时每百万 Tokens 的输入价格为 2 元,缓存未命中时为 8 元,而输出价格为 32 元。不过需要注意的是,特惠活动将在 9 月 1 日结束,届时价格将恢复原价。

  Kimi K2 不仅在速度上表现出色,同时在技术实力上也不容小觑。它的强大使其在各类任务中表现优异,尤其是在代码生成和复杂的代理任务中,得到了用户的广泛认可和好评。月之暗面表示,将继续优化模型的性能,致力于为用户提供更为高效和精准的 AI 服务。