通往AI下一个“iPhone时刻”的门票？科技巨头聚首语音交互《科创板日报》5月14日讯音频输入反应时间短至232毫秒、能感知人类情绪、能和用户像真人一样聊天——昨夜OpenAI一...

《科创板日报》5月14日讯音频输入反应时间短至232毫秒、能感知人类情绪、能和用户像真人一样聊天——昨夜OpenAI一场发布会，最新多模态大模型GPT-4o的出色表现引发外界瞩目。各家科技巨头们也没有放慢追逐的脚步，AI人机交互，尤其是语音交互，或许将成为新一轮竞争焦点。

据The Information援引知情人士消息称，Meta已建立一个名为“Camerabuds”（摄像头耳机）的项目，探索制造由AI驱动的带摄像头耳机，希望其能识别物体、翻译外语。

此前，Meta已发布了新一代雷朋智能眼镜，内置多模态AI功能。用户戴上眼镜后，说一声“嘿，Meta”，就能召唤出一个虚拟助手，后者能看到并听到周围发生的一切，能描述物品，能翻译，还会搭配衣服。

与此同时，苹果也在进行类似的探索。

苹果即将与 OpenAI 达成协议，或将在iOS 18中引入由ChatGPT提供支持的“聊天机器人”，有望对苹果的个人语音助理Siri带来颠覆性影响。之前公司已被曝正在探索开发带摄像头的AirPods，AI可以使用摄像头拍摄的画面，并通过多模态语音、图像人工智能系统，帮助用户跟踪自己的日常活动，协助人们的日常工作，优化日常作息。

不论是GPT-4o、带摄像头耳机，还是计划ChatGPT的“升级版Siri”，其主要交互形式都离不开语音互动。

而在语音交互这场赛跑中，OpenAI已暂时凭借着GPT-4o领先，这也是OpenAI迈向更自然人机交互的更近一步。华福证券今日报告指出，GPT-4o奠定了AI语音助手基础：低延迟、情绪感知、视觉感知。其中，情绪感知是对语音一维输出模态的丰富，视觉感知能力则可以适配AI手机、AI电脑和AI智能硬件。

在几天前的一场访谈中，Sam Altman曾被问及，iPhone之后会出现什么样的（革命性）设备。“我认为你必须找到一些真正不同的交互范式，才能实现这种设备技术。”Altman说道，“我们会进一步提升（语音功能）。”

在他看来，语音交互是通向未来交互的重要途径，“多模态交互能力非常强大。比如你可以向ChatGPT提问，‘嘿ChatGPT，我正在看什么’或是‘这是什么植物’。”

站在科技的时光隧道回望，从最初不会说话的AlphaGo，到之后“竖耳倾听、张口说话”的苹果Siri与ChatGPT语音版，再到如今的GPT-4o，AI的人机交互正越来越接近人类之间的交流。

对于普罗大众而言，科技巨头们所宣传的庞大训练数据规模、算力需求、参数堆叠，都是难以直观感受到的要素。更低的价格、降低的应用门槛、更自然的交流模式，才是维系着用户最真实的感受与体验的“秘诀”，未来或许也将成为AI之战的决胜因素。

通往AI下一个“iPhone时刻”的门票？科技巨头聚首语音交互

作者：科创板日报