这两位创始人离开高盛和Meta,为其他人忽视的市场构建语音人工智能

客户支持和服务是目前语音人工智能最热门的领域之一。但事实证明,在某些市场上打造一款听起来很人性化、响应没有明显延迟的产品比其他市场要困难得多——而且大多数主要参与者在开发时都没有考虑到非洲和中东。
AethexAI是一家去年为缩小这一差距而成立的初创公司,已筹集了300万美元的种子前资金,由4DX Ventures领投,Enza Capital、Dorm Room Fund、Mojo Ventures和斯坦福GSB 26 Fund参与其中。个人投资者包括斯坦福大学教师、电信高管和来自Anthropic的人工智能研究人员。
该公司没有使用VapiandLiveKit等现有的编排工具,而是从头开始构建了自己的小型模型和编排层,以处理其目标市场中使用的英语、法语和阿拉伯语等本地化方言——正如我们将要讨论的那样,这一决策是由该地区运营的特殊需求驱动的。
该公司还推出了供企业试用其技术和注册其服务的平台,以及供开发人员试验其模型的API和SDK。
该初创公司由Mariama Diallo和Ayoluwa Odemuyiwa创立。CEODiallo曾在高盛工作,后来加入YC支持的ModelML,担任产品和增长员工。CTOOdemuyiwa毕业于加州理工学院,曾在Meta工作,并在共同创立公司之前就读于斯坦福大学商学院。两人希望为新兴市场打造一些东西,并开始寻找机会。
世界各地的企业都在竞相采用人工智能工具来实现部分运营的自动化。但这并不总是有效。创始人发现,在埃及,一个呼叫中心将大部分呼叫自动化,但由于效果不佳而导致系统回滚。非洲的几个支持中心告诉他们,寻找和雇用工程师以适当的成本实现呼叫自动化是一个持续令人头痛的问题。
“我们在该地区的自动呼叫中看到的延迟和抖动令人震惊。如果我们成为编排者,我们可能不得不使用在该地区之外托管的大型模型,从而导致更高的延迟。我们意识到,为了实现这一目标,我们必须使用非常小的模型并在每一步都减少延迟,”Odemuyiwa告诉TechCrunch关于构建公司自己的模型和编排层的决定。
部署最新模型的人工智能实验室通常花费数百万美元对其进行培训并获取数据。 AethexAI为这两个问题找到了解决方案。它没有追求尽可能大的模型,而是认为小模型足以解决延迟问题,同时保持准确性,并开发了自己的Kora系列,参数范围从3亿到17亿不等。这只是法学硕士规模的一小部分,而这正是重点。
为了训练这些模型,该初创公司使用了呼叫中心合作伙伴的匿名录音。它还将硬盘运送到非洲各地的广播电台以收集更多音频数据。为了降低成本,它建立了一个大学生贡献者网络来注释数据并发音当地名称。该初创公司表示,目前每天要处理超过17,000个电话。
在业务方面,该公司正在努力引导刚接触语音人工智能的客户完成整个流程,提供现场演示和研讨会,帮助他们确定自动化的最佳用例。
“我们总是告诉客户,我们现在不可能为所有人提供一切。我们很小。当我们开始与一家公司交谈时,我们会要求他们选择一个对他们来说最重要的用例来开始,”迪亚洛说。
这家初创公司对所有行业都持开放态度,但目前,其大部分用例涉及催收债务、客户激活或KYC(了解你的客户验证),这是银行和电信使用的标准身份检查流程。该公司正在以合同形式聘用前沿工程师来服务当地市场,并与电信提供商建立渠道合作伙伴关系,以处理语音人工智能呼叫的电话技术。它说,即插即用的解决方案在这里根本行不通。
4DX Ventures联合创始人兼管理合伙人Walter Baddoo认为,非洲和中东市场与大多数语音AI公司所服务的市场有着根本的不同。
“非洲和中东的企业处理的电话量大约是西方同行的三倍,因为语音仍然是客户互动的主要渠道,”他说。 “现有系统是为西方市场构建的,其特点是高端GPU基础设施、标准英语和欧洲语音环境以及美国和欧洲常见的企业工作流程。当企业需要处理方言、代码转换和非正式语音模式并在其现有电话基础设施和实际价格点内运行的系统时,这就产生了真正的差距。”
换句话说,虽然ElevenLabs、Deepgram、Sierra和Cognigy等公司正在全球范围内快速扩张,但它们所针对的市场和它们正在进入的市场并不总是一回事。像AethexAI这样的初创公司押注于这些差距——专门针对当地方言的模型、实地合作伙伴关系、为该地区建造的基础设施——代表了一个市场开放,而巨头们既没有动力也没有架构来关闭这个市场。