分类 AI快讯 下的文章

上海市近日发布了《上海市支持人工智能赋能广告业创新发展的若干措施》,旨在通过一系列具体的扶持政策,推动人工智能技术在广告行业的深度应用和发展。

202412271635326771_0.jpg

核心扶持措施概览

新政策的核心在于**“AI+数字广告”生产要素**的强化支持,具体措施包括:

  • 大模型私有化部署补贴: 对于采用第三方大模型进行私有化部署,并将其应用于广告垂类领域的数字广告企业,上海市将提供最高可达核定合同额50%最高500万元的补贴。

  • 语料研发与应用补贴: 鼓励企业购买非关联方的语料进行广告垂类应用和“智能体”等研发。对于此类投入,企业可获得最高核定合同额30%最高500万元的补贴。

  • 算力租用支持: 此外,有条件的区政府还将对租用算力的数字广告企业提供支持,按实际投入的30%比例,给予单个主体年度最高2000万元的支持。

这一系列政策的出台,不仅体现了上海市抢占**“AI+广告”**产业制高点的决心,也旨在通过真金白银的投入,降低企业在技术研发和部署上的成本,激发市场的创新活力。通过支持大模型私有化部署、语料研发和算力投入,上海正着力打造一个集技术、数据和算力于一体的完整AI广告生态系统。

这些措施预计将吸引更多AI技术公司和传统广告企业在上海落地和发展,加速人工智能在广告创意、内容生成、精准投放等环节的深度融合,从而推动整个广告行业的数字化和智能化转型


微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注,这款140亿参数的模型通过创新的智能体强化学习技术,在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。

rStar2-Agent的核心创新在于摒弃了传统的思维链方法,转而采用智能体交互机制。该模型能够自主规划推理过程,调用Python代码执行工具进行验证,并根据反馈调整推理步骤,避免了传统CoT方法中常见的错误累积问题。

权威的美国数学邀请赛基准测试中,rStar2-Agent表现突出。在AIME24数据集上,其pass@1准确率达到80.6%,超越DeepSeek-R1的79.8%、o3-mini的79.6%和Claude Opus4.0的77.0%。在AIME25测试中准确率为69.8%,HMMT25测试中达到52.7%。

6389294118155827071695533.png

值得注意的是,rStar2-Agent的响应长度显著更短。在AIME24测试中平均约9340个token,AIME25约10943个token,仅为DeepSeek-R1的一半左右,展现出更高的推理效率。

训练效率方面,该模型仅需一周时间完成510个强化学习步骤,使用64块MI300X GPU即可训练完成。其强化学习基础设施支持每步高达4.5万个并发工具调用,平均延迟仅0.3秒。

模型引入了GRPO-RoC算法来处理代码执行中的环境噪声问题,通过"正确时重采样"策略保留高质量推理轨迹,提高训练效果。

在泛化能力方面,rStar2-Agent在GPQA-Diamond科学推理基准上优于DeepSeek-V3,在BFCL v3工具使用任务和IFEval、Arena-Hard等通用测试中也表现良好,显示出智能体强化学习对通用能力的积极影响。

微软已将rStar2-Agent的代码和训练方法开源,基于VERL框架实现多阶段强化学习训练。这一突破表明,通过智能的训练策略,小型模型可以在特定任务上匹敌大型模型的表现,为资源有限的研究者和开发者提供了新的可能性。

这一成果挑战了"参数越多性能越好"的传统观念,证明了训练方法和架构创新在AI发展中的重要作用。对于AI行业而言,这可能预示着未来发展将更注重效率和专用性,而非单纯追求模型规模。

项目地址:https://github.com/microsoft/rStar


据科创板日报消息,中国AI大模型公司MiniMax已正式启动新一轮期权增发计划,旨在激励其核心员工。此次期权激励金额从几十万美元到几百万美元不等,覆盖了包括算法、工程、产品、市场、增长和职能等在内的全序列核心贡献员工

据了解,这一消息已在公司全员会议上进行了口头通知。此举表明,MiniMax不仅重视技术研发团队,也高度认可公司在业务、市场和运营等方面的贡献者。

此外,MiniMax还透露,未来将继续对表现突出的员工进行即时期权激励,以保持团队的创新活力和凝聚力。在当前AI大模型竞争白热化的背景下,MiniMax通过丰厚的期权激励,旨在吸引和保留顶尖人才,为其未来的发展奠定坚实基础。


在人工智能与数据科学的交汇处,一个名为 InfoSeek 的框架正在积极开发中,旨在为复杂的深度研究任务提供高质量的数据合成。InfoSeek 采用了一种双代理系统,通过挖掘大量文本中的实体和关系,逐步构建出一棵研究树,并模糊处理其中的中间节点,以确保生成有效的子问题。这一过程最终将这些研究树转化为自然语言问题,要求解答者遍历整个层级结构,以获取全面的答案。

InfoSeek 的研发团队已在知名平台上发布了相关数据集,以支持研究者在各自领域内的探索。以 “Russet sparrow”(红胸朱雀)为例,研究树的构建涉及多个层级的实体和关系,从命名者 John Gould 到他的妻子 Elizabeth Gould,再到与该物种相关的特征。通过这种结构化的方式,研究者能够清晰地看到每一个问题是如何被分解和解答的。

另一示例是关于 SV Werder Bremen(女子足球队)的研究,该团队的首个进球者 Doreen Nabwire,与其背后的发展机构 Mathare Youth Sports Association 和她的出生地 Korogocho 之间的复杂关系,也在 InfoSeek 的框架下得到了有效呈现。通过这种方式,研究者可以在多层次的结构中提取出关键的信息,深化对问题的理解。

InfoSeek 还在传统的多跳基准测试中展现出了强大的性能,尤其是在 BrowseComp-Plus 上,训练模型的表现颇具竞争力。这为未来的研究提供了新的工具和思路,推动着数据合成技术的进一步发展。

当前,InfoSeek 的代码和数据已在 Apache2.0许可证下发布,允许学术研究和商业用途,并鼓励在使用时给予适当的引用。此外,开发团队也呼吁社区的支持,希望能获得更多的关注与反馈,以推动项目的持续改进与创新。

项目:https://github.com/VectorSpaceLab/InfoSeek


来自谷歌深度学习团队的最新消息,他们正式推出了 EmbeddingGemma,这是一款专为移动设备设计的开源嵌入模型。EmbeddingGemma 以其308百万个参数的高效设计,在 MTEB(大规模文本嵌入基准)中被评为500M 以下的最佳多语言文本嵌入模型,展现出强大的功能,如检索增强生成(RAG)和语义搜索,能够在没有互联网连接的情况下直接在手机等设备上运行。

6389294260031536841386243.png

EmbeddingGemma 的优越性在于,它的性能可与几乎是它两倍大小的热门模型相媲美。它不仅小巧而且灵活,适用于多种场景,支持768到128的可定制输出维度,并拥有2000个上下文令牌窗口,能够在手机、笔记本电脑和桌面等日常设备上运行。此外,它还与多种流行工具集成,用户可以方便地与 sentence-transformers、MLX、Ollama 等工具合作。

EmbeddingGemma 在建立 RAG 管道时表现出色,能够生成文本的嵌入,即将文本转换为数字表示,以高维空间表示其意义。在 RAG 管道中,首先根据用户输入生成嵌入,并计算其与系统中所有文档嵌入的相似度,从而检索到最相关的文段。这种高质量的嵌入能够确保最终生成的回答准确且上下文相关。

此外,EmbeddingGemma 在速度和资源消耗方面也经过精心设计,具有小巧、快速和高效的特点。其嵌入推理时间低于15毫秒,允许实时交互。它的离线功能确保了用户数据的隐私安全,特别适合于开发基于移动设备的应用程序。

开发者们现在可以利用 EmbeddingGemma 实现个性化的聊天机器人,进行文件搜索,或为特定领域进行快速微调。无论是在线下应用,还是需要高效性能的服务器端应用,EmbeddingGemma 都提供了理想的选择。

官方博客:https://developers.googleblog.com/en/introducing-embeddinggemma/


随着人工智能(AI)的迅速发展,许多公司正在经历前所未有的变革。曾经的职场成功故事,如 Hewlett Packard Enterprise 的首席执行官安东尼・内里(Antonio Neri)从客服代理晋升为 CEO,正在逐渐被 AI 的兴起所取代。分析师预测,未来可能有高达50% 的入门级工作将被 AI 取代,这意味着许多刚刚步入职场的大学毕业生将面临前所未有的挑战。

202305061059569559_2.jpg

图源备注:图片由AI生成,图片授权服务商Midjourney

在一项针对公共科技公司和成长中的风险投资企业的研究中,数据显示,从2019年到2024年,具有不到一年工作经验的求职者的就业机会下降了50%。这一趋势影响到了销售、市场营销、工程、招聘、运营、设计、财务和法律等各个核心职能。这种变化不仅影响了求职者,也让企业面临重新培养人才的压力。

尽管如此,行业专家指出,这种失去入门级岗位的情况可能促使组织内部的人才培养模式发生改变。随着公司的结构变得更加扁平化,入门级岗位可能会转变为更高要求的技能角色,要求求职者在进入职场前具备更多的能力。虽然对于即将毕业的学生来说,这意味着他们需要自行掌握这些技能,但也可能成为他们在竞争激烈的求职市场中脱颖而出的优势。

各大高校也在积极调整课程,旨在为学生提供与 AI 相关的技能培训。虽然技术进步可能在短期内对就业率产生影响,但历史上技术革新在长期内并未导致大规模的失业。专家认为,当前大学毕业生面临的挑战,可能在未来几年内影响他们的职业发展。

然而,尽管有许多未知数,许多经济学家认为 AI 对劳动市场的长期影响仍然具有高度的不确定性,企业和社会将需要时间来适应这一变化。随着技术的不断进步和 AI 的普及,职场的未来可能会迎来全新的模式,而不仅仅是对现有职场阶梯的替代。


Snapchat独家向TechCrunch透露,该平台正式推出名为"Imagine Lens"的新功能,允许用户通过文本描述生成和编辑图像。该功能面向Snapchat+ Platinum和Lens+订阅用户开放。

Imagine Lens支持用户通过输入自定义提示词来创建、编辑和重新制作Snap内容。生成的图像可以与朋友分享、发布到Story或在Snapchat外部平台分享。

虽然Snapchat此前已推出多款生成式AI滤镜,但该公司表示Imagine Lens是其首款开放式提示词图像生成滤镜。用户可以使用自定义提示词生成图像,例如"创建一个愤怒的猫咪图像"或"把我变成外星人"。

6389294737629398105677374.png

该功能还预设了一些提示词供用户选择,包括"把我变成四到五格漫画,发生意想不到但英勇的事情"、"把我变成搞笑漫画形象"和"让这个人去跳伞"等。用户可以随时点击标题栏来编辑提示词内容。

今年早些时候,Snap发布了一款面向移动设备的AI文本转图像研究模型,称将为Snapchat的未来功能提供支持。虽然Snap未确认该模型是否驱动新滤镜,但表示其滤镜功能结合了内部模型和行业领先的AI模型。

Snapchat+ Platinum和Lens+订阅用户可在滤镜轮播的前端或专属类别中找到新滤镜。选择滤镜后,用户可点击标题输入或编辑提示词。Platinum订阅费用为每月15.99美元,Lens+订阅费用为每月8.99美元。

Snap被视为AR领域的领导者,近年来也在与其他科技公司一样大力投资AI技术。几个月前,该公司推出了独立的Lens Studio iOS应用和网页工具,旨在让任何人都能使用AI和简单工具创建AR滤镜。今年3月,公司还推出了首款视频生成式AI滤镜。

这一新功能反映了社交媒体平台在AI内容生成领域的持续创新,同时也显示了付费订阅模式在社交媒体商业化中的重要作用。通过将高级AI功能与付费服务绑定,Snapchat正试图为其订阅业务创造更多价值。


官方介绍称,Qoder 集成了全球顶尖的编程模型,提供最强的上下文工程能力,可一次检索 10 万个代码文件。基于强大的编程智能体,可实现 AI 自主研发,大幅提升真实软件的开发效率。使用 Qoder 开发一个电商网站的前后端,可将原本需要数天的工作缩短到十分钟。

图片

  • 内置代码检索引擎,可检索 10 万个代码文件;

  • 率先支持 Repo Wiki,将代码工程的隐性知识显性化,方便开发者和 AI 理解;

  • 集成长短期记忆系统,可基于会话历史总结项目经验和个人偏好,并将信息存储为一个“笔记”,实现自我学习和进化,最终让 AI 执行结果更符合用户预期和偏好。

图片

例如,用户在开发过程中有“完成任务后要生成单元测试”、“完成任务后提供详细报告”等要求,Qoder 会理解用户习惯并形成记忆,在后续执行任务时自动完成这些工作。

除了提供 Ask Mode(问答模式)和 Agent Mode(智能体模式)之外,Qoder 新增了全新的 Quest Mode(AI 自主编程)。基于 Quest Mode,Agent 可扮演全栈工程师的角色,自动将模糊、抽象的需求转换为详尽的设计规范,自主完成研发任务。

在 Quest 模式下,用户将体验到全新的开发范式。开发者确定需求后通过 Agent 编写详细的任务说明(Spec),然后将任务委派给 Agent 执行,开发者最终只需要验收或必要的修改,让复杂任务的开发效率提升 10 倍以上

IT之家查询 Qoder 官网,Qoder 支持 Windows 和 macOS 版本,目前可免费使用,详细定价计划即将推出


8 月 22 日,钉钉、通义实验室语音团队宣布,联手推出新一代语音识别大模型 Fun-ASR,能听懂家装、畜牧等十大行业黑话,并支持企业专属模型定制训练。基于双方深度共建,Fun-ASR 能够准确转写各种语音信号,具备识别多行业术语、不同语言与口音的能力,也能结合上下文信息实现更精准的转录,并支持企业专属模型定制训练,让模型更懂企业场景。


目前,Fun-ASR 已被集成进钉钉的多个功能模块,包括会议字幕与同传、智能纪要、语音助手等旨在构建一套稳定、高效、易扩展的语音识别基座,尤其适用对企业级语境理解、识别准确率有较高要求的场景。


图片


技术层面看,Fun-ASR 语音识别大模型的核心亮点在于三方面:


图片

该模型经过上亿小时音频数据的训练,并结合钉钉多行业客户的真实场景共创,能够准确理解互联网、科技、家装、畜牧、汽车等十多个领域的专业术语。


实测数据显示,Fun-ASR 在保险行业的准确率较以往提升 18%,在家装、畜牧等行业也实现了 15%-20% 的提升。针对生僻词汇,Fun-ASR 还提供企业自定义热词能力,最多可支持 1000+ 热词导入。


图片

Fun-ASR 可结合企业在钉钉内的已有信息如通讯录、日程、知识库等,进行推理优化,有效缓解大模型造成的幻觉,提供更可靠的转写结果。该能力需经企业授权后方可生效。


图片

基于高效的端到端训练架构,该模型可利用企业提供的真实场景语音数据进一步做算法优化,以提升如品牌名、项目代号、产品名、人名等专属词汇的识别准确率。


以顾家家居与钉钉的合作为例,经过专属训练后,在顾家的门店销售给客户讲解产品时,该模型能够准确识别“比利时进口 Pulse 脉冲乳胶”、“独创 Sonocore 发泡工艺”等专业表述,为后续对客户需求的进一步分析提供可靠依据。


对于此次合作,通义实验室语音团队负责人李先刚表示:“我们很高兴能够与钉钉携手,共同推动语音识别技术在企业场景中的创新和应用。未来,我们将持续扩大 Fun-ASR 的数据和模型规模,不断提升大模型语音智能解决方案的可复制能力,为企业客户带来更高效、智能的产品体验。”  


钉钉 CTO 朱鸿也表示,“钉钉和通义团队仅用三个月的紧密协作,就实现了 Fun-ASR 模型的成功落地,并赢得了头部客户的高度认可。这是我们迈向行业领先的一次关键突破,也将为更多钉钉客户企业打造专业定制大模型提供可参考的范例。”



目前,Fun-ASR 的潜力尚未被穷尽,双方将继续探索在方言识别、噪声鲁棒性、多语种支持及企业深度定制等方向的升级工作,不断提升语音转写的精准度和实用性,为更多企业业务场景的智能升级赋能。


8月21日,据彭博报道,AI初创公司Anthropic正接近达成一项高达100亿美元的新融资协议,较此前报道的50亿美元目标翻倍,凸显投资者对生成式AI领域的强烈信心。

顶级投资机构争相入局

本轮融资由投资公司Iconiq Capital领投,TPG、Lightspeed、Spark Capital和Menlo Ventures等多家知名投资机构有意参与。值得关注的是,卡塔尔投资局和新加坡政府投资公司GIC等主权基金也在商谈加入,显示出国际资本对AI技术前景的高度认可。

据悉,Anthropic最初寻求按1700亿美元估值融资至多50亿美元,但投资者的强劲兴趣推动公司将融资目标大幅上调至100亿美元。该轮融资谈判仍在进行中,最终金额可能发生变化。

202310180948538535_0.jpg

技术领先地位推动估值飞跃

Anthropic估值的大幅提升主要源于其在生成式AI领域的技术领先地位。该公司开发的Claude大语言模型系列在行业内获得广泛认可,特别是在智能代理系统方面的技术突破,为其赢得了投资者青睐。Claude已与Google的Gemini、OpenAI的ChatGPT一起,成为美国批准政府机构使用的三项AI服务之一。

据公司向部分投资者披露的数据,Anthropic的年化收入在今年上半年增长了四倍,已超过40亿美元。这一增长势头表明,尽管整个行业仍在巨额投入阶段,但头部AI公司已展现出强大的商业化能力。

AI巨头军备竞赛愈演愈烈

这轮融资将为Anthropic与OpenAI、马斯克的xAI之间的激烈竞争提供充足资金支持。今年以来,这些AI公司均筹集了数十亿美元资金,用于投资数据中心基础设施和招募顶尖人才来开发下一代AI模型。

Anthropic由OpenAI前员工于2021年创立,定位为可靠、注重安全的AI公司。今年早些时候,该公司在由Lightspeed领投的35亿美元融资中获得615亿美元估值。新一轮融资完成后,其估值将实现近三倍跳升,进一步巩固在全球AI开发商中的领先地位。

这一融资规模的大幅增长反映了投资市场对生成式AI技术商业化前景的乐观预期,同时也预示着AI领域的竞争将更加白热化。


在最近的一次对话中,亚马逊网络服务(AWS)首席执行官马特・加尔曼(Matt Garman)表示,用人工智能(AI)替代初级员工的想法是 “我听过的最愚蠢的事情”。加尔曼与 AI 投资者马修・伯曼(Matthew Berman)讨论了 AWS 的 Kiro AI 辅助编码工具,并提到了一些企业领导者认为 AI 可以取代公司内所有初级员工的观点。

202302031031488526_0.jpg

对此,加尔曼质疑道:“那么,未来十年后,你们将会有谁来学习?” 他认为,初级员工通常是公司中最便宜的员工,而且他们与 AI 工具的接触最为紧密。他强调:“我们应该继续从大学招募年轻人,教他们如何正确地构建软件、分析问题。”

加尔曼还对另一种关于 AI 的观点表示反对,即用 AI 在组织中生成的代码比例来衡量其价值。他称这是一种 “愚蠢的指标”,因为虽然组织可以利用 AI 编写 “无限多的代码”,但这些代码可能质量不高。“往往更少的代码更好,而不是更多的代码。” 他表示,“我从未明白为什么这个指标能引起人们的兴趣。”

尽管如此,加尔曼注意到,超过80% 的 AWS 开发者以某种方式使用 AI。他提到,AI 的应用不仅限于编写代码,还包括编写单元测试、帮助撰写文档,以及开发者与 AI 代理的协作工作。他指出,AWS 开发者每周使用 AI 工具的频率都在不断增加。

在谈到职业发展的建议时,加尔曼提到,现代年轻人需要学习如何学习,而不仅仅是掌握特定技能。“应该强调的技能包括:如何独立思考?如何发展解决问题的批判性思维能力?如何培养创造力?如何养成终身学习的心态?” 他认为,随着技术的快速发展,单靠狭窄的技能难以维持30年的职业生涯。他希望教育者能够教导学生如何思考以及如何分解问题,认为掌握这些技能的年轻人将能在未来获得成功。



腾讯元宝宣布正式接入最新版本的 DeepSeek V.1,用户现可通过电脑版和网页版提前体验这一升级带来的强大功能。这一新模型的发布标志着腾讯在人工智能领域的又一重要进展,旨在为用户提供更高效、更智能的服务。

DeepSeek V3.1的更新主要带来了两大突破。首先,在思考速度上,新版本的 DeepSeek V3.1-Think 显著提升了响应时间,能够在更短的时间内给出答案。这一改进使用户能够更快速地抓住灵感,提升工作效率。无论是在日常生活中的疑问,还是在工作中遇到的复杂任务,DeepSeek V3.1都能为用户提供及时的解决方案。

QQ20250822-145811.png

其次,新模型的智能助手能力得到了大幅增强。DeepSeek V3.1不仅能够更好地理解和处理用户的需求,还具备更强的工具使用能力,能够帮助用户轻松应对各种复杂任务。这使得无论是学术研究、商务策划,还是日常生活中的各种问题,用户都能在 DeepSeek 的辅助下迅速找到答案。

腾讯元宝团队表示,他们将继续致力于产品的优化与迭代,以期为用户带来更加优质的 AI 体验。团队强调,DeepSeek 不仅仅是一个信息查询工具,更是用户在工作和生活中不可或缺的智能助手。通过持续的更新与改进,腾讯希望能够满足用户日益增长的需求。


AI视频生成技术正在迎来一个决定性的转折点。当创作者们还在为AI视频的随机性和不可预测性而苦恼时,可灵AI已经用实际行动给出了完美的解决方案。基于全新2.1模型的首尾帧功能正式发布,这一技术突破以235%的效果提升幅度,彻底改变了AI视频创作的游戏规则,让精准可控的视频生成从梦想照进了现实。

这个235%的提升数字背后隐藏着技术革命的深刻含义。对于熟悉AI视频生成技术的专业人士而言,这样的性能飞跃几乎是不可思议的。要知道,从1.6模型到2.1模型的迭代过程中,可灵AI不仅在算法架构上进行了根本性的重构,更在训练数据的质量和规模上实现了质的突破。这种全方位的技术升级最终体现为用户体验的巨大改善,让AI视频生成从粗糙的概念验证工具真正蜕变为专业级的创作平台。

image.png

首尾帧功能的核心价值在于它赋予了创作者前所未有的视频控制能力。传统的AI视频生成往往像是一场技术赌博,用户输入文字描述后,只能被动等待系统生成结果,无法对视频的具体走向进行精准把控。而可灵AI的首尾帧技术彻底打破了这种被动局面,创作者现在可以明确指定视频的起始画面和结束画面,让AI在这两个关键节点之间生成流畅自然的过渡内容。

这种精准控制能力的实现并非简单的技术拼接,而是基于深度学习算法对视频时空连续性的深刻理解。2.1模型通过分析海量的视频数据,学会了如何在给定的首尾约束条件下,生成既符合物理规律又富有创意表现力的中间帧序列。每一帧画面的生成都要考虑到与前后帧的连贯性,确保整个视频呈现出丝滑流畅的视觉效果。

image.png

广告营销领域将成为这一技术突破的最大受益者之一。品牌方现在可以精确控制广告视频的开场和结尾画面,确保品牌元素和核心信息得到完美呈现,同时让AI发挥创意优势,生成引人入胜的中间过渡内容。这种人机协作的创作模式不仅大大提升了广告制作的效率,更让创意表达变得更加丰富多样。

影视制作行业同样将从中获得巨大价值。导演和制片人可以利用首尾帧功能快速制作概念预览片段,在正式拍摄前就能向投资方和团队成员展示具体的视觉效果。这种快速原型制作能力不仅降低了前期沟通成本,更为创意决策提供了直观的参考依据。特别是在需要大量特效镜头的科幻和奇幻题材中,AI生成的预览内容能够帮助创作团队更好地规划拍摄方案和后期制作流程。

短剧创作者们也将迎来全新的创作可能性。在这个内容为王的时代,短剧创作者需要在有限的时间和预算内制作出吸引观众的精彩内容。可灵AI的首尾帧功能让他们能够快速生成各种场景转换和情节推进的视频片段,大大降低了创作门槛,让更多有创意想法但缺乏技术资源的创作者能够实现自己的艺术愿景。

动画制作领域的变革更加深刻。传统动画制作需要大量的手工绘制和繁琐的后期处理,而AI技术的介入正在改变这一现状。动画师现在可以专注于关键帧的设计和创意构思,将中间帧的生成工作交给AI完成。这种分工协作不仅提升了制作效率,更让动画师能够将更多精力投入到故事情节和角色塑造等核心创意工作中。

技术层面的突破也为整个AI视频生成行业树立了新的标杆。235%的效果提升不仅仅是数字上的飞跃,更代表了算法优化、数据质量改善、计算效率提升等多个维度的全面进步。这种技术领先优势将帮助可灵AI在激烈的市场竞争中占据有利位置,同时也推动整个行业向更高的技术水准迈进。

可灵AI首尾帧功能的发布标志着AI视频生成技术进入了一个全新的发展阶段。从早期的完全随机生成到现在的精准可控创作,这个技术演进过程体现了人工智能在创意产业中的巨大潜力。随着技术的持续完善和应用场景的不断扩展,我们有理由相信,AI辅助的视频创作将成为未来内容产业的重要组成部分,为创作者们开启一个充满无限可能的数字创意新时代。


8月20日,即梦AI(网页版)正式上线全新视频生成能力“智能多帧”,该功能以多图驱动为核心,旨在解决当前AI视频创作中长镜头生成难的问题,为用户带来流畅、连贯的一镜到底视频创作体验。

智能多帧最多可支持添加10张关键帧画面

当前,多数视频生成类工具仅支持5秒或10秒的短视频生成,难以满足创作者流畅叙事的需求。用户为拼接长视频,经常需要将多段首尾帧视频进行剪辑拼接,很容易产生明显的“刹车感”。单纯延长视频生成时长也有可能存在画质下降、运镜方向不一致等问题,效果难以保障。

即梦“智能多帧”功能的推出,有望打破上述行业困境,为AI视频创作领域注入新的活力,助力用户更高效、高质量地完成长镜头视频创作。

关键帧之间可以通过提示词控制运镜方式

“智能多帧”支持用户上传2-10张关键帧图像,模型会自动识别图像内容,并结合用户输入的提示词与设定的每帧停留时长,生成空间连续、运镜流畅且节奏合理的一镜到底视频。用户可通过自由调整帧间时长把控内容节奏,配合运镜提示词让镜头衔接更自然。

该功能广泛适用于空间运镜、产品展示、角色动态、叙事等多种场景,尤其在商业广告连续镜头、潮玩新品展示、空间漫游运镜、舞蹈动作延展等需要长镜头衔接的创作中,能实现画面自然流畅、节奏统一的效果。创作者梅森体验后评价说:“这个功能真的很惊艳,有效解决了做Al视频总头疼的关键帧跳帧、前后内容断层问题,整个体验流畅又省心。”


3D建模行业的变革时刻终于到来。当传统建模师还在为复杂的几何构建和纹理贴图而日夜奋战时,VAST公司已经用人工智能技术彻底改写了这个领域的游戏规则。Tripo3.0版本的正式发布,不仅标志着AI驱动的3D内容创作进入了全新发展阶段,更以其惊人的用户规模和数据积累向整个行业展示了技术革命的磅礴力量。

这场技术革命的规模令人叹为观止。VAST旗下的AI3D大模型已经成功服务了超过300万名全球专业开发者,这个庞大的用户群体横跨游戏开发、影视制作、建筑设计、工业设计等众多专业领域。更加令人瞩目的是,已有700多家大型企业客户选择将VAST的技术解决方案整合到自己的核心业务流程中,这充分证明了AI3D建模技术已经从实验室走向了大规模商业应用。

数据的力量在VAST的发展历程中体现得淋漓尽致。累计生成的高质量3D原生数据集已经突破了4000万个的惊人规模,这些海量数据不仅是VAST技术实力的最佳证明,更是推动AI模型持续优化和迭代升级的宝贵资源。每一个3D模型的生成过程都在为整个系统积累经验和知识,形成了一个不断自我完善的技术生态循环。

1.jpg

图源备注:图片由AI生成,图片授权服务商Midjourney

Tripo3.0版本的推出代表着VAST在技术创新道路上的又一次重大飞跃。虽然官方尚未披露具体的技术细节和功能特性,但从其前代产品的卓越表现来看,这个新版本必将在建模精度、生成速度、材质表现等关键指标上实现新的突破。对于那些依赖高质量3D内容的创意工作者而言,Tripo3.0无疑将成为他们创作工具箱中最强大的武器。

VAST的成功不仅仅是一家公司的胜利,更是整个AI3D建模行业发展成熟的重要标志。300万开发者的信任选择和700多家企业客户的深度合作,充分说明了AI技术在3D内容创作领域已经从概念验证阶段进入了大规模产业化应用阶段。这种规模化的商业成功为整个行业树立了发展标杆,也为其他技术公司指明了前进方向。

4000万个高质量3D数据集的积累更是具有里程碑式的意义。在人工智能时代,数据就是技术进步的燃料,而VAST所积累的这些海量3D数据不仅数量庞大,更重要的是质量上乘。这些经过精心生成和验证的3D模型涵盖了从简单几何体到复杂场景的各种类型,为AI模型的训练和优化提供了无与伦比的丰富素材。

从行业发展的角度来看,VAST Tripo3.0的发布时机恰到好处。当前,元宇宙概念方兴未艾,游戏产业蓬勃发展,虚拟现实技术日趋成熟,这些都为3D内容创作技术创造了巨大的市场需求。VAST凭借其领先的技术优势和丰富的数据积累,正好能够满足市场对高效、高质量3D内容生成工具的迫切需求。

对于广大开发者而言,Tripo3.0的推出意味着他们将拥有更加强大和便捷的3D创作工具。无论是独立游戏开发者需要快速构建游戏场景,还是建筑师希望将设计理念快速可视化,抑或是电商平台需要为产品生成精美的3D展示模型,Tripo3.0都能够提供专业级别的解决方案,大大降低了3D内容创作的技术门槛和时间成本。

企业级客户的广泛采用更是验证了VAST技术方案的商业价值和实用性。这700多家大企业客户的选择绝非偶然,而是经过严格评估和实际应用验证后的理性决策。这种大规模的企业级应用不仅为VAST带来了稳定的收入来源,更重要的是在实际业务场景中不断锤炼和完善了技术解决方案的成熟度和可靠性。

随着Tripo3.0的正式发布,VAST在AI3D建模领域的领先地位将进一步巩固。这个拥有4000万数据集支撑、服务300万开发者、获得700多家企业信赖的技术平台,正在用实际行动证明人工智能技术在创意产业中的巨大潜力。在这个技术快速迭代的时代,VAST Tripo3.0的问世无疑将为整个3D内容创作生态注入新的活力,推动行业向着更加智能化、高效化的方向发展。