分类 AI快讯 下的文章

  AIbase报道 特斯拉正为其车辆语音助手功能引入更强AI能力。根据特斯拉中国官网最新更新的《特斯拉车机语音助手使用条款》,官方首次明确其语音助手将接入外部大模型技术,合作伙伴包括字节跳动旗下的火山引擎和人工智能公司DeepSeek。

  双重AI技术加持智能交互

  条款内容显示,特斯拉语音助手将得到火山引擎提供的Doubao大模型(云雀大模型)和DeepSeek Chat的技术支持。这一技术升级标志着特斯拉在智能座舱领域迈出重要一步,将传统的车控命令扩展至更丰富的AI对话体验。

  升级后的语音助手功能将实现质的飞跃。在具备AI互动能力的特斯拉车辆上,车主不仅能通过语音命令控制车辆功能,未来还将能与语音助手进行轻松聊天,获取资讯、查询天气等信息,实现更加自然流畅的智能座舱交互体验。

  多样化激活方式提升便利性

  据悉,车主可通过物理按键或"嘿,Tesla"等唤醒词激活该功能,为用户提供了灵活多样的交互入口。这种设计既保留了传统操作习惯,又融入了现代化的语音唤醒体验,充分考虑了不同用户的使用偏好。

  值得注意的是,特斯拉选择与火山引擎和DeepSeek两家技术实力雄厚的AI公司合作,体现了其对中国AI技术能力的认可。火山引擎的Doubao大模型在多轮对话和语义理解方面表现出色,而DeepSeek在AI推理能力上也有显著优势,双重技术加持将为特斯拉用户带来更智能、更贴心的车载AI体验。

  目前,官方暂未公布AI互动功能的具体上线时间,但这一升级预示着特斯拉在智能汽车领域将进一步强化其技术优势,为用户提供更加完善的智能出行解决方案。


  近日,特斯拉与字节跳动旗下火山引擎达成重要合作,双方将共同为特斯拉在国内市场的智能座舱交互体验注入新活力。根据合作内容,火山引擎将为特斯拉提供大模型服务,助力其车机系统实现智能化升级。

  据特斯拉中国官网最新更新的《特斯拉车机语音助手使用条款》披露,全新上市的特斯拉Model Y L车型将率先搭载豆包大模型与DeepSeek模型,两款国产大模型均通过火山引擎实现接入。这一举措标志着特斯拉在中国市场正式引入国产大模型技术,以提升其车机系统的智能化水平。

  根据条款说明,每辆特斯拉车辆均配备了先进的语音助手功能。车主可通过物理按键、语音指令“嘿,Tesla”或自定义唤醒词轻松激活车机语音助手,实现与车辆的语音交互。其中,豆包大模型将承担起语音命令的核心功能,包括导航设定、媒体播放操控、空调温度调节等实用操作,同时还具备车主手册查询功能,为车主提供便捷的信息查询服务。而DeepSeek模型则专注于提供AI语音闲聊服务,进一步丰富车主的驾驶体验。

  8月22日,Moonshot AI宣布其Kimi K2模型的输出速度再次取得重大突破。经过工程师团队的不懈努力,kimi-k2-turbo-preview模型的输出速度已经提升至每秒60个Tokens,最高可达每秒100个Tokens。这一显著的速度提升,将进一步优化用户体验,满足更多场景下的高效需求。

微信截图_20250822162306.png

  目前,kimi-k2-turbo-preview模型仍然享受5折特惠价格。模型每百万Tokens输入价格(缓存命中)为2.00元,输入价格(缓存未命中)为8.00元,输出价格为32.00元。这一优惠价格将持续至9月1日,之后将恢复原价。

  Moonshot AI在公告中表示,感谢用户的持续支持与信任,公司将继续致力于优化模型性能,进一步提高Kimi K2模型的输出速度。用户可以访问Moonshot AI官网(https://platform.moonshot.cn)获取更多详细信息。

  此次提速不仅是技术上的进步,更是Moonshot AI对用户需求的积极回应。随着模型性能的不断提升,Kimi K2将为用户提供更高效、更流畅的AI体验,助力用户在工作和生活中实现更高的效率和创造力。


  近日,谷歌宣布将加入到与美国政府的 AI 服务折扣竞赛中,推出针对政府机构的特惠方案,价格仅为每个机构0.47美元。这一举措让谷歌在与 OpenAI 和 Anthropic 等竞争对手的较量中抢占了先机。OpenAI 和 Anthropic 此前的折扣为每个机构1美元,谷歌此次的低价策略可谓大幅度让利。

201811151621147122_90 (1).jpg

  此次谷歌的优惠价格是通过美国总务管理局(GSA)的一项名为 “OneGov” 的采购策略实现的。此策略旨在简化联邦机构的产品采购流程。想要使用谷歌 Gemini AI 的政府机构,只需遵循 GSA 事先为整个联邦政府谈判好的条款,无需与谷歌重新建立协议。这一便利的采购方式吸引了众多政府机构的关注。

  不过,值得注意的是,与 OpenAI 和 Anthropic 的折扣协议一样,谷歌的0.47美元特惠也仅在一年内有效。对于那些在折扣期间签约并依赖这些服务的机构而言,未来的费用和服务内容却不明确,留下了不小的隐忧。谷歌的一位发言人表示,虽然尚不清楚未来的情况,但会在折扣期结束前进行探讨。

  与此同时,行业内对于这种极具竞争力的折扣协议也引发了担忧。前空军和太空军首席软件官尼古拉斯・查兰(Nicolas Chaillan)指出,这种低价策略可能会导致政府机构对单一供应商的依赖,从而造成未来更高的成本和风险。他还提到,与 OpenAI 和 Anthropic 的合同仍然是私密的,政府并未公开这些信息。

  对于谷歌的 AI 服务包,GSA 特别指出,除了基本的 AI 服务外,政府机构还将获得视频和图像生成能力的支持。这一额外功能的加入,引发了部分人的担忧。


  近日,InternLM 团队正式发布了其开源的轻量级多模态推理模型 ——Intern-S1-mini。该模型参数仅为8B,结合了先进的 Qwen3-8B 语言模型与0.3B 视觉编码器 InternViT,展现出强大的处理能力和灵活性。

  Intern-S1-mini 经过了大规模的预训练,总共使用了超过5万亿的 token 数据。其中,令人瞩目的是,超2.5万亿 token 来自于化学、物理、生物和材料等多个科学领域。这使得 Intern-S1-mini 不仅能进行常规的文本和视觉输入处理,更能解析复杂的分子式、蛋白质序列,并有效规划合成路径,展示出其在科学研究领域的广泛应用潜力。

image.png

  根据官方提供的基准测试结果,Intern-S1-mini 在多个领域的任务表现上均超过了同类模型。在 MMLU-Pro、MMMU、GPQA 以及 AIME2024/2025等任务上,该模型的表现令人惊叹,ChemBench 分数达到76.47.MatBench 分数为61.55.而 ProteinLMBench 则是58.47.这些成绩不仅证明了 Intern-S1-mini 的强大实力,更表明它在文本、图像和视频输入方面的兼容性。

  有趣的是,Intern-S1-mini 默认开启了 “思考模式”,用户可以通过简单的开关命令(enable_thinking)来切换。这种设计让模型的交互性更强,为用户带来了更灵活的使用体验。

  在科技飞速发展的今天,Intern-S1-mini 的发布无疑为研究人员和开发者们提供了一个新的工具,助力他们在多模态推理领域实现更多创新与突破。无论是在基础研究还是实际应用中,这一模型都将是一个值得关注的焦点。


  人工智能训练数据的合法性争议终于演化成了一场震撼硅谷的法律风暴。美国加利福尼亚州法院最近受理的一起诉讼案件,将全球科技巨头Meta推到了舆论的风口浪尖。两家成人影片制作公司Strike3和Counterlife Media的联合起诉,不仅揭露了AI训练背后的数据获取黑幕,更以高达3.59亿美元的索赔金额,为整个科技行业敲响了版权保护的警钟。

  这起诉讼的核心指控令人震惊。根据法庭文件显示,Meta公司自2018年以来一直在明知故犯地从盗版来源下载受版权保护的影片内容,累计涉及至少2396部作品。这些非法获取的视频资料被用于训练包括Meta Movie Gen视频生成模型和LLaMA语言大模型在内的多种AI系统,为Meta的人工智能技术发展提供了重要的数据支撑。

  更加令人意外的是Meta获取这些内容的方式。起诉文件详细披露,Meta并非简单地下载这些盗版内容,而是主动利用BitTorrent文件共享技术进行大规模的非法内容获取。这种P2P下载方式的特殊之处在于,下载者同时也会成为内容的分发者,通过"种子"技术向网络中的其他用户传播相同的文件。

  Meta选择这种下载方式绝非偶然。BitTorrent协议的核心优势在于其分布式下载机制能够显著提升大文件的传输速度,这对于需要处理海量视频数据的AI训练项目而言具有重要价值。然而,这也意味着Meta不仅仅是被动的内容接收者,更是主动的盗版内容传播者,其行为的恶劣性质因此被进一步放大。

  原告方的律师团队在起诉书中强调,Meta完全有能力通过合法途径获取所需的训练数据。无论是直接购买版权授权,还是修改下载工具的设置以避免传播行为,Meta都拥有多种合规选择。然而,该公司却选择了最具争议的方式持续进行非法下载和传播活动,这种明知故犯的行为模式充分显示了其侵权的故意性。

  这起诉讼案件并非孤立事件,而是近年来AI公司版权争议的最新爆发点。此前已有多位知名作家对Meta提起类似诉讼,指控其未经许可使用受版权保护的文学作品训练AI大模型。值得注意的是,在那些案件的法庭审理过程中,Meta已经公开承认确实曾从盗版来源获取过训练内容。这一承认不仅为当前的诉讼提供了重要的法律依据,也让Meta在这起新案件中处于更加被动的地位。

  Strike3公司在这起诉讼中的角色转变具有重要的象征意义。作为美国最活跃的版权维权机构之一,Strike3长期以来主要专注于起诉个人盗版用户,通过大量的民事诉讼来维护版权方的合法权益。然而,此次将矛头直指Meta这样的科技巨头,标志着版权保护战线正在向更高层面扩展,传统的版权维权策略开始适应AI时代的新挑战。

  3.59亿美元的索赔金额虽然数字庞大,但其计算依据相当清晰。按照美国版权法的相关规定,每部被侵权作品的法定赔偿金最高可达15万美元,而2396部涉案影片的总赔偿金额上限正好接近这一数字。这种按作品数量累计的赔偿方式,充分体现了版权法对批量侵权行为的严厉态度。

  对于Meta而言,这起诉讼的影响远超经济层面的损失。作为全球领先的科技公司,Meta在人工智能领域的投资规模巨大,其AI产品的竞争力很大程度上依赖于高质量训练数据的获取。如果法庭最终认定Meta的数据获取方式违法,这不仅会对公司的财务状况造成直接冲击,更可能迫使其重新审视整个AI训练数据的获取策略。

  这起诉讼案件的更深层意义在于它可能成为AI行业版权规范的重要转折点。随着人工智能技术的快速发展,训练数据的需求量呈现爆炸式增长,而现有的版权法律框架显然还没有完全适应这种新兴技术的发展需求。Meta案件的审理结果很可能为整个行业的数据使用规范确立重要的法律先例。

  目前,Meta公司尚未对这起诉讼作出正式回应,但业界普遍认为这将是一场持续时间较长的法律拉锯战。无论最终结果如何,这起案件已经向所有AI公司发出了明确信号:在追求技术进步的同时,必须严格遵守版权法律的相关规定,否则将面临巨大的法律和经济风险。

  在人工智能技术日益成为各行各业核心竞争力的今天,如何平衡技术创新与版权保护之间的关系,已经成为整个社会必须面对的重要课题。Meta的这起诉讼案件,无疑将为这个复杂问题的解决提供重要的实践参考。


  近日,月之暗面发布了有关 Kimi K2 高速版 AI 模型的最新消息。经过工程师们的努力,Kimi K2 turbo-preview 模型的输出速度得到了显著提升,目前稳定输出速度已达到每秒 60 Tokens,最高可达每秒 100 Tokens。这一进步标志着该模型在处理数据时的效率大幅提高,用户在应用时能够体验到更为流畅的服务。

  Kimi K2 是月之暗面推出的一款基于 MoE(Mixture of Experts)架构的基础模型,具备强大的代码生成能力和出色的通用代理(Agent)任务处理能力。该模型的总参数量达到 1 万亿,其中激活参数为 320 亿。Kimi K2 于 8 月 1 日正式发布,并在发布时以每秒 10 Tokens 的速度运行。经过优化,现已提升至每秒 40 Tokens,并在此基础上进一步增强,现已达到 60 Tokens 的稳定输出。

  为了吸引更多用户使用,Kimi K2 高速版在当前阶段还提供了五折特惠的价格。模型的输入费用分为两种情况,缓存命中时每百万 Tokens 的输入价格为 2 元,缓存未命中时为 8 元,而输出价格为 32 元。不过需要注意的是,特惠活动将在 9 月 1 日结束,届时价格将恢复原价。

  Kimi K2 不仅在速度上表现出色,同时在技术实力上也不容小觑。它的强大使其在各类任务中表现优异,尤其是在代码生成和复杂的代理任务中,得到了用户的广泛认可和好评。月之暗面表示,将继续优化模型的性能,致力于为用户提供更为高效和精准的 AI 服务。


阿里通义正式推出新一代端到端语音识别大模型Fun-ASR,该模型通过强化上下文感知与高精度转写能力,在家装、保险等垂直行业场景中实现语音识别准确率超15%的突破性提升。实测数据显示,保险行业准确率较前代提升18%,家装、畜牧等领域增幅达15%-20%。

作为大语言模型驱动的语音识别算法,Fun-ASR采用自研语音算法与Qwen3监督微调技术,结合前沿模型架构与文本模态对齐技术,在保持语言处理优势的同时,集成RAG检索增强方案,支持超1000个自定义热词导入。该功能可自动匹配音频中的领域热词、历史文档及上下文记录,显著优化特定场景下的关键词识别效果。

阿里通义新一代语音模型Fun-ASR再进化 垂直领域识别准确率提升超15%

针对语音识别中的噪声干扰、语种混淆及生成幻觉等痛点,研发团队创新性引入强化学习(RL)技术,通过动态优化策略减少识别误差,系统稳定性与可靠性获实质性提升。值得关注的是,模型在四川话、粤语、闽南语等方言识别中表现优于同类产品,同时适应远场拾音、近场降噪等复杂声学环境,覆盖会议室、工位、超市、户外等多元场景。

训练数据层面,Fun-ASR基于上亿小时音频数据构建,深度融合互联网、科技、畜牧、汽车等十余个领域的专业术语库。这一数据优势使其在垂直行业识别中展现出显著优势,例如在畜牧行业可精准识别牲畜叫声与环境噪声中的关键指令。

阿里通义技术团队表示,Fun-ASR的进化标志着语音识别技术从通用场景向专业化、场景化深度渗透。随着模型在更多行业落地,其动态热词更新与多模态交互能力将进一步推动语音交互效率革新。


什么?人工智能(AI)竟然可以预测聚变点火的成功率,还登上了权威科学期刊 Science!

这听起来有点像科幻电影中的情节,但它却已经真真实实地发生了——

这一生成式机器学习模型,由美国劳伦斯利弗莫尔国家实验室构建,以超过 70% 的概率预测了美国国家点火装置(NIF)的一次聚变点火实验结果,即“成功点火”。其中,点火(ignition)是指聚变产生的能量超过用于实验的激光能量。

论文链接:www.science.org/doi/10.1126/science.adm8201

这一发现可能为未来从事惯性约束聚变(ICF)实验的研究人员提供指导。ICF 实验利用高能激光压缩并加热氢同位素胶囊,以引发产生聚变能的核反应,是能源短缺时代的一种高效能源解决方案。想象一下,把地球上最强大的激光系统对准一个微小的氢胶囊,让它释放出巨大的能量,就像掌握了微型太阳。

研究人员表示,拥有“成功的预测模型”将为聚变能研究人员提供启示,帮助他们调整实验设计,并判断未来提升激光能量及其他变量是否能够改善聚变产出与效率。

聚变点火预测,为何重要?
ICF 项目旨在利用全球最大的激光系统 NIF,压缩并加热一个含有氢同位素氘和氚(D-T)的毫米级胶囊。在压缩过程中,D-T 燃料中的核反应会释放出聚变能量。

短短两个月前,我们还在感叹 31 家 AI 小团队的高效表现,当时团队平均规模仅 20 人,人均创造收入高达 279 万美元。如今,再度审视 Henry Shi 发布的最新榜单,我们发现 AI 小团队生态中又涌现出十款取得商业成功的产品,覆盖 AI 视频、AI 游戏、甚至 AI“团购”平台。 仔细分析这些新上榜团队,我们注意到一个明显趋势: 成功的小团队越来越倾向于去聚焦能直接衡量成果的业务环节,而非停留在单纯的工具或技术展示上。例如,GrowthX 以真人+AI“直接交付营销结果”为目标,替代单纯卖营销内容的写作工具;Pump.co 通过集体议价直接省下云成本,而非只做技术层面的优化——这类“结果导向”的团队,普遍更快地实现了规模化收入增长。 在创作者工具上也出现类似转向:Hanabi AI 选择聚焦语音情绪表现力这一价值感明确的方向;AI 视频这一边,Creati 明确赋能营销的定位,不卷花里胡哨的功能,主打上传商品图、套上模版即刻生成可用社媒内容;Higgsfield 则敏锐洞察到激增的短剧创作需求,从轻量化、娱乐向的 AI 视频应用转为专攻电影镜头语言的 AI 视频创作平台。

站在赛场,就是成功。
或许,本届运动会本就不是为了寻找“第一名”。“用竞技规则倒逼技术突破,用市场关注反哺产业发展”。这场运动会哨声响起,人形机器人企业会在产业坐标系里找到属于自身的落地方位。

首届人形机器人运动会藏着不少心思。

先来看看开幕式,所有节目均由人类和人形机器人互相配合完成。胡兵和一众人形机器人走秀、武术少年、戏曲小演员和人形机器人同台等。诸多节目都在呈现人类与人形机器人的共振和鸣,谱写“人机协同时代”的前奏。

当然,在开幕式中,也存在不少插曲,有失足跌倒也有宕机被拎着走的。或许比赛中也会存在失误,但其并不是“负面新闻”,而是通过暴露出“不确定性”或者badcase,在真实环境中发现问题、解决问题,促进长效发展。

这并不是一场竞技,而是我们窥见未来的窗口。

图片来源:人形机器人运动会

这场盛会于8月15—17日在国家速滑馆举办,参赛方多达127个品牌,汇聚500余台人形机器人。据了解,来自全球五大洲16个国家的280支队伍将会参赛,涵盖192支高校赛队和88支企业赛队。

与马拉松赛不同的是,这场运动会没有特长程的项目。相较半马比拼耐力,更考验硬件、本体结构设计,运动会的热门竞技项目主要是短程项目和群体项目,像百米、跨障、跳远等,所依仗的是爆发力和身体协调性,而多机足球赛则考验机器人之间的群体协同与智慧。

表演赛和场景赛则着重考察人形机器人的实用技能和智能化水平,探索机器人的落地方向。