Avataar的视频AI更便宜、更快且具有文化意识,专为印度规模打造

与美国、欧洲和中国相比,印度的人工智能模型产出一直缓慢。只有少数初创公司发布模型,并且大多数是大型语言模型或语音模型。为了鼓励更多发展,政府初创公司了印度人工智能任务,这是一项价值约12亿美元的计划,除其他外,该计划为选定的初创公司提供获得补贴的GPU计算的机会,以换取公开发布其模型的机会。 Avataar AI是入选该计划的12家初创公司之一,推出了一种名为Varya的新视频模型,该模型旨在了解当地背景,例如识别不同的节日、食物和服装。
这家由Peak XV支持的初创公司专注于为电子商务创建视频工具,并没有从头开始构建Varya。它从阿里巴巴发布的公开视频生成模型Wan 2.2开始,并使用了一种称为蒸馏的技术 - 本质上是将模型的功能压缩为针对Avataar的特定用例优化的更精简、更快的版本。其结果是模型的运行速度比Wan 2.2的50个要快4步,视频生成速度提高了10倍,而成本却仅为Wan 2.2的一小部分。
具体来说:使用NVIDIA H200 GPU,Varya可以在45秒内生成一个5秒的720p剪辑,而Wan 2.2需要1,230秒。
Varya最引人注目的方面可能是它的价格。该公司计划在其托管服务上对每秒视频收费0.48卢比(0.005美元)——远低于Veo、Kling、Luma和Runway等型号,后者通常每秒收费0.10美元或更多。这大约是20倍的价格差异。
Peak XV董事总经理Rajan Anandan告诉TechCrunch:“印度是一个视频优先的市场。我们在印度的每一个大型消费互联网产品中都看到了这一点:视频胜过文本。当前的人工智能视频模型对于印度的人口规模使用来说太昂贵了。如果视频人工智能要惠及学生、教师、中小微企业、创作者、企业和公共服务,成本必须大幅下降。成本是印度采用人工智能的最大障碍。”
图像和视频生成模型经常会忽略文化的细微差别并产生刻板或通用的输出——这是TechCrunch之前报道过的一个问题。 Avataar AI表示,它已使用精选数据来训练Varya识别文化差异,包括食物、服装、建筑和节日。
Varya将作为开放权重模型及其训练数据在印度的AI Kosh门户(印度政府公开可用的AI模型和数据集的集中存储库)上发布,这意味着开发人员可以据自己的需要自行托管或修改它。 Avataar还计划将该模型提供给其企业客户,并表示愿意与Higgsfield和Adobe Firefly等视频工具合作。任何人现在都可以使用文本提示或参考图像在其网站上尝试。
Varya的推出反映了印度人工智能雄心的根本性权衡。行业资深人士指出,印度可以通过创建应用程序和强大的开发者生态系统来在人工智能领域取得成功,而不是在基础模型上竞争。这种实用主义是有原因的:由于缺乏计算能力和有限的高质量数据可用性,印度的模型开发速度比全球竞争对手慢。
印度人工智能使命也是政府缩小这一差距的更广泛努力的一部分。去年,它选择了12家初创公司(其中包括Avataar AI)来开发人工智能模型,并为它们提供经济高效的计算。今年早些时候,IT部长Ashwini Vaishnaw表示,印度的目标是到2028年吸引2000亿美元的人工智能投资,并在六个月内将GPU容量增加一倍以上。