OpenAI的新模型名为GPT-4o集合了所有的模态，覆盖了文本、视觉和音频

GPT52024-05-15 22:56:56175

OpenAI的新模型名为GPT-4o，其中的字母“o”代表“Omnimodel”，即全能模型。这意味着该模型集合了所有的模态，覆盖了文本、视觉和音频。听起来有些抽象，我来描述一下发布会的场景，让大家更好地理解。

发布会现场，OpenAI的工程师拿出一部iPhone，对手机说：“我第一次来直播的发布会，有点紧张。”ChatGPT回应道：“要不你深呼吸一下。”工程师深呼吸后，AI马上说：“你这不行，喘得声音也太大了。”这感觉非常科幻，简直像是与朋友面对面聊天。

如果你经常使用AI语音助手，会明显发现OpenAI的颠覆性。我观察到了六个细节：

第一个细节，这是真实的实时语音交互。你不用说完话等待AI加载或反应，这个模型能在232毫秒内响应音频输入，与人类反应时间相似。

第二个细节，你可以随时打断它，不必等它说完。以前用其他产品时，AI常常喋喋不休地输出，而我们可能已经知道不是想要的结果，必须手动让AI停止输出，容易让人出戏。但这次OpenAI的模型允许你直接打断，说出你想说的话，它会继续与你交流。就像朋友抱怨领导时，你可以打断说“咱俩还是聊聊足球吧”，AI会立即切换话题。

第三个细节是AI对呼吸的感知。工程师深呼吸，AI回应道“你这喘得也太大了”，说明AI不仅能感受到呼吸的节奏，回复也非常自然，而不是像一些AI那样生硬地给出知识库里的冗长解释。

第四个细节，另一位工程师在纸上写了一个方程式，让ChatGPT解释解题步骤而非直接给出答案。AI可以对代码和图表进行准确回答，这个细节在教育场景中具有巨大潜力。比如，AI可以24小时随时待命进行一步步教学，对学校教育和职业培训产生革命性影响。程序员们也可以拥有自己的AI搭档进行“结对编程”，相互讨论、提醒和检查代码。

第五个细节，AI能识别视频中人物的表情。虽然视频较短，但想象空间巨大。AI识别到不同情绪后，能用不同方式互动。当你开心、愤怒、沮丧或无聊时，AI能体贴地陪伴。现在职场和中小学中，心理问题频发，许多学校都要求配备心理医生，但一个心理医生难以覆盖所有有心理问题的孩子。这种情况下，AI心理医生可以疏导孩子情绪，并在情绪波动时启动应急方案，让专业医疗机构和学校及时介入，避免极端事件。

第六个细节是与图片进行对话。比如打开冰箱，拍张照片，问AI“这顿饭可以做什么？”它会根据冰箱里的食材提供菜谱，整个交互非常流畅。如果AI记录的东西足够多，当你遇到一个熟人却忘记他是谁时，只需拍张照片，AI会调出历史记录，帮你回忆起你们的相识经历，让你不再尴尬。

这些细节展示了GPT-4o模型的强大能力，让我们看到了AI技术的未来前景。OpenAI的这一突破不仅让科幻变成现实，也为我们日常生活带来了更多可能性。

本文链接：https://gpt5.fans/chatgpt5_49.html

GPT-4o人机交互取得进步 GPT-40亮相后科技股不所动 GPT-4o第一波反馈来了 GPT-40免费 GPT-40评测

OpenAI的新模型名为GPT-4o集合了所有的模态，覆盖了文本、视觉和音频

相关文章

什么是GPT-5，探索这个超强人工智能的最新突破！

gpt5成本

GPT-5什么时候发布？一文带你了解GPT系列发展历程！

GPT5史低价是什么意思？如何利用这个优惠入门AI聊天？

什么是GPT-5，它对我们有什么用？

GPT-5是谁发明的？一起揭开人工智能背后的神秘面纱！

GPT5编程语言是什么？一篇文章带你从零开始了解！

GPT5能改变什么？

网友评论