免费!OpenAI推出GPT-4o主打实时响应

发布于: 雪球转发:0回复:0喜欢:0

文丨海天

可惜,没有大家预期中的搜索引擎!

OpenAI召开发布会,对ChatGPT进行升级,推出GPT-4o,谷歌应该吓了一跳,既然没有搜索,那就只是虚惊。

虽然没有推出专用搜索挑战谷歌,但GPT-4o还是具备信息搜索能力的。OpenAI首席执行官Mira Murati在发布会上表示,通过与GPT-4o进行对话,用户可以搜索实时信息。

而对于普通尝鲜用户来说,最令人高兴的可能是“免费”。GPT-4o既有付费版本,也有免费版,按照OpenAI制定的使用政策,ChatGPT Plus用户比免费普通用户的流量限制高5倍。

虽然GPT-4o有免费版本,但付费仍然值得考虑。付费版本有更多新功能,如果是重度用户,付费更划算。

智能与实时响应是最大亮点

和往常一样,OpenAI发布会仍然以“炫技”为主。

OpenAI宣称GPT-4o可以跨越音频、视频和文本实时推理,也就是说GPT-4o可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。

从演示可以看出,ChatGPT语音助手可以用不同的语音、情绪、语调阅读睡前故事,我们可以将数学题写在纸上,ChatGPT利用视觉技术阅读,然后给出答案。

观看发布会难免有一种感觉:OpenAI想极力展示GPT-4o的实时智能处理能力。

GPT-4o可以快速翻译语音,可以做线性代数题目,相信学生们会喜欢。

与前几代产品相比,GPT-4o拥有更强的对话能力。

演示时OpenAI研究人员Mark Chen告诉聊天机器人,他对演讲感到紧张,Mark Chen问机器人有没有办法让心情平静下来。Mark Chen对着手机深呼吸,GPT-4o回应称:“Mark!你不是真空吸尘器。”

当AI讲话时人类可以打断,交流不受影响。GPT-4o在对话时拥有更强的情绪能力,这点和Inflection.ai开发的产品有些相似,该公司也已经被微软收购。

语音能力并不是新功能,前几代产品也有,只是这一次AI拥有更强的实时互动能力,消除了延迟时间。以前为了模仿人类,AI回应时会有2-3秒的延迟,新版本大大改进,达到了实时响应。

按照OpenAI提供的数据,GPT-4o可以在232毫秒内响应音频输入,平均为320毫秒,与人类在对话中的响应时间相似。在英文和代码文本方面,GPT-4o的处理能力与GPT-4 Turbo相当,对非英语文本的处理明显改善。

还有一点,ChatGPT推出了桌面端App,只不过目前只覆盖Mac平台,而且只有Plus付费订阅者能使用。

通过Mac使用ChatGPT能获得更棒的体验。

例如,如果你正在用Mac计算机浏览网页,可以给页面截屏,然后让GPT-4o根据截屏内容做总结。

OpenAI也没有忘记Windows平台,针对该平台的桌面App预计会在今年底前推出。

对手很强 巩固地位创造收入关系到生死存亡

整个发布会只有45分钟,不算长,而且只是推出升级版本,我们普遍更加期待的可能是GPT5.0的发布;如果OpenAI真的认为本次发布的产品具有颠覆性、革命性意义,那想必发布时间不会设置如此短,也不会冠以GPT-4o的名称了。

免费提供给用户当然很好,有人认为GPT-4o做出这一决定是因为竞争对手太多,追赶太猛,为了巩固优势,OpenAI用免费手段降维打击敌人。

不过也有人认为OpenAI热度已经下降,它迫于压力想快速扩大ChatGPT用户群。

订阅ChatGPT Plus,每月付费19.99美元,对于普通用户来说绝不算便宜,如果无法看到实际回报,用户量将很难增长,这可能也是免费的原因之一。

ChatGPT于2022年推出,很快月活跃用户便冲到1亿。但Similarweb提供的数据显示,在过去一年里ChatGPT流量像过山车一样起伏,先是冲至高点,然后下落,直到2023年5月再次回到巅峰。

行业人士认为,为ChatGPT增加搜索能力是符合逻辑的下一步,而且搜索功能还要提供实时、精准WEB信息,但在ChatGPT向下一步前进时遇到了挑战。

很快谷歌将会召开I/O大会,会上应该也会谈到AI产品的进展,谷歌肯定会未雨绸缪,绝不容许OpenAI挑战。

所以我们现在还不能断言OpenAI一定能在搜索领域战胜谷歌,至少从GPT-4o身上看不到这样的迹象,反而谷歌有可能追上。

也就是说虽然OpenAI有先发优势,但并不一定能笑到最后。

在重重压力之下如何维持并抬高估值是OpenAI必须回答的难题。今年2月时,OpenAI的估值已经冲至800亿美元,去年才只有290亿美元。

第三方市场分析平台Sensor Tower认为,在过去一个月里,ChatGPT在全球App Store的下载量约为700万,订阅收入1200万美元;在全球Google Play的下载量约为9000万,订阅收入300万美元。

到底目前OpenAI的创收能力如何?没有人知道具体数字。

去年8月时曾有报道称,OpenAI月收入约为8000万美元,年营收向10亿美元靠近。The Information则说2022年OpenAI亏损5.4亿美元。

虽然没有准确信息,但从多方报道看,OpenAI在财务方面应该承受着极大的压力。

将AI聊天机器人与语音助手融合是未来

本次发布会还透露一个信号,即OpenAI的战略方向有了调整,无论是免费版本还是Mac桌面版本,都预示着战略的改变。

OpenAI首席执行官Mira Murati在发布会上公开表示,让用户免费使用对于公司使命来说相当重要。

Mira Murati称:“这是我们第一次朝易用性方面迈进了一大步,这一步相当重要,因为我们关注的是人与机器的未来交互。”

让交互变得更自然、更容易,这是长远目标,GPT-4o的推出意味着OpenAI正在向这一目标转移。

深入挖掘不难发现,GPT-4o正在尝试将ChatGPT与类似谷歌助手、苹果Siri之类的语音助手结合,这是大方向和大未来,竞争对手谷歌苹果也朝同样的方向迈进,谷歌试图将谷歌助手与Gemini结合,苹果也准备推出AI版Siri。事实上,GPT-4o的语音助手功能已经超越Siri。

到底OpenAI能在新方向上走多远?我们不得而知,但前路肯定困难重重。几个月前Sora生成的视频让人眼前一亮,但此后却归于沉寂,在本次发布会上也没有露脸,新的GPT-4o无法生成视频,这或许是个不太好的信号。

是技术上遇到了什么障碍?还是成本过高无法普及?或者Sora的应用场景过于狭窄?OpenAI没有任何解释。虽然看不到Sora大放异彩,但GPT-4o在视频处理方面还是带来一些惊喜,所以我们也没必要太过失望。

将AI聊天机器人与语音助手融合并不容易,因为AI聊天机器人从互联网数据中学习,数据没有提纯,AI也无法区分网络数据的真假对错,难免出现“幻觉”。一旦AI聊天机器人与语音助手对接,AI的错误也会转移至语音助手,现在的技术还无法完全解决此问题。

虽然AI聊天机器人的对话能力不断增强,但如果要让AI采取行动,比如规划会议、订机票,AI就会显得笨拙。如果连简单的生活任务都无法完成,AI就很难成为未来的交互方式,这一难题是所有AI企业需要面对的。

无论是OpenAI、谷歌苹果还是Meta,虽然起点不同,业务不同,但在AI方面可能最终会殊途同归:将AI聊天机器人与语音助手融合。

OpenAI在文本、音频、图片融合方面取得进步,那谷歌苹果Meta呢?

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!

如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!

参考链接:

1、网页链接

2、网页链接