ElevenLabs联合创始人兼首席执行官马蒂·斯坦尼谢夫斯基表示,语音正在成为AI的下一个主要交互界面——随着模型超越文本和屏幕,语音将成为人们与机器交互的主要方式。
在多哈网络峰会上接受TechCrunch采访时,斯坦尼谢夫斯基表示,ElevenLabs等公司开发的语音模型最近已经超越了简单模拟人类语音(包括情感和语调)的阶段,开始与大语言模型的推理能力协同工作。他认为,这种结合正在改变人们与技术的交互方式。
他说,在未来几年内,"希望我们所有的手机都能重新回到口袋里,我们可以沉浸在周围的真实世界中,用语音作为控制技术的机制。"
这一愿景推动了ElevenLabs本周完成5亿美元融资,估值达到110亿美元,这个愿景在AI行业中得到了越来越多的认同。OpenAI和谷歌都将语音作为下一代模型的核心重点,而苹果似乎正在通过收购Q.ai等公司悄悄构建语音相关的始终在线技术。随着AI扩展到可穿戴设备、汽车和其他新硬件中,控制方式正在从点击屏幕转向语音交互,使语音成为AI发展下一阶段的关键战场。
Iconiq Capital普通合伙人赛斯·皮埃尔庞在网络峰会台上也表达了同样的观点,他认为虽然屏幕在游戏和娱乐方面将继续发挥重要作用,但键盘等传统输入方式开始显得"过时"。
皮埃尔庞说,随着AI系统变得更加智能化,交互本身也会发生变化,模型将获得护栏、集成和上下文,从而能够在用户较少明确提示的情况下做出响应。
斯坦尼谢夫斯基指出,这种向智能体化的转变是正在发生的最大变化之一。他说,未来的语音系统将不再需要拼写出每个指令,而是越来越依赖于持续的记忆和随时间建立的上下文,使交互感觉更加自然,减少用户的工作量。
他补充说,这种演变将影响语音模型的部署方式。虽然高质量的音频模型主要存在于云端,但斯坦尼谢夫斯基表示ElevenLabs正在朝着混合云端和设备处理的方向发展——这一举措旨在支持新硬件,包括耳机和其他可穿戴设备,在这些设备中,语音成为一个持续的伙伴,而不是你决定何时使用的功能。
ElevenLabs已经与Meta合作,将其语音技术带到包括Instagram和Horizon Worlds(该公司的虚拟现实平台)在内的产品中。斯坦尼谢夫斯基表示,随着语音驱动界面扩展到新的形态因子,他也愿意与Meta在其Ray-Ban智能眼镜上进行合作。
但是,随着语音变得更加持续化并嵌入到日常硬件中,这为隐私、监控以及基于语音的系统在接近用户日常生活时将存储多少个人数据方面开启了严重担忧的大门——这是谷歌等公司已经被指控滥用的问题。
Q&A
Q1:ElevenLabs的语音技术有什么特别之处?
A:ElevenLabs开发的语音模型已经超越了简单模拟人类语音的阶段,不仅能够包含情感和语调,还能与大语言模型的推理能力协同工作,从而实现更自然的人机交互。
Q2:未来语音交互会如何改变我们使用设备的方式?
A:未来语音系统将依赖持续记忆和上下文,使交互更加自然。人们可能不再需要频繁使用手机屏幕,而是通过语音来控制技术,让我们更好地沉浸在真实世界中。
Q3:语音AI技术在隐私方面存在哪些担忧?
A:随着语音技术变得更加持续化并嵌入日常硬件中,这会带来隐私、监控和个人数据存储方面的严重担忧,特别是基于语音的系统在接近用户日常生活时可能收集和滥用大量个人信息。