谷歌展示Project Astra,演示响应式AI+智能眼镜的效果

发布于: 雪球转发:0回复:0喜欢:0

演示了响应式人工智能运行在智能眼镜的效果

(映维网资讯)谷歌在今天召开的I/O开发者大会中展示了名为Project Astra的项目,并演示了响应式人工智能运行在智能眼镜的效果。他们表示,Project Astra是一个“能看见且能说话的响应式代理”。

不过,这家公司并未介绍太多的信息,在接受采访时同样没有透露任何信息。

在一段相关博文中,谷歌写道:“谷歌DeepMind的使命是负责任地开发人工智能,造福人类。作为其使命的一环,我们一直希望开发出能够在日常生活中有所帮助的通用人工智能代理。这就是为什么今天,我们通过Project Astra(先进的能看见且能说话的响应式代理)来分享我们在构建未来人工智能助手方面的进展。”

网页链接

如上面的视频所示,Project Astra由两部分组成,每个部分都是实时一次拍摄。在前半部分,穿戴智能眼镜的女子主要是通过智能手机来与人工智能代理互动。至于后半部分,女子则是直接通过智能眼镜来与人工智能代理互动。

从视频可以看到,这款眼镜搭载了一定的图形叠加能力。在回答问题时,眼镜会同时在用户视场显示相关的文字转录和信息。不过,当前的模型似乎存在一定的延迟,暂时无法即刻回答。

谷歌解释道,要想真正发挥作用,智能代理需要像人类一样理解复杂而动态的世界,并对其作出反应,吸收并记住它所看到和听到的一切,以理解情景并采取行动。它同时需要具有主动性、可教性和个性化,这样用户就可以自然地与它交谈而不会出现延迟或延迟。

尽管团队在开发能够理解多模态信息的人工智能系统方面取得了令人难以置信的进展,但将响应时间降低到对话级别是一项艰巨的工程挑战。在过去的几年里,谷歌一直在努力改进模型如何感知、推理和交谈,以确保交互的速度和质量感觉更自然。

在Gemini的基础之上,研究人员开发了一个原型代理,可以通过连续编码视频帧来更快地处理信息,将视频和语音输入结合到事件的时间轴中,并缓存它们以进行有效的回忆。

通过利用领先的语音模型,谷歌同时增强了它们的发音,为智能代理提供了更广泛的语调范围。最后,这种智能代理可以更好地理解它们所在的环境,并在对话中快速响应。

谷歌总结道:“有了这样的技术,我们很容易想象这样一个未来:通过手机或眼镜,人们就会在身边拥有一个专业的人工智能助手。”

---
原文链接:网页链接