GPT5官网|gpt5人工智能在线

OpenAI的新模型名为GPT-4o集合了所有的模态,覆盖了文本、视觉和音频

GPT52024-05-15 22:56:56175
OpenAI的新模型名为GPT-4o,其中的字母“o”代表“Omnimodel”,即全能模型。这意味着该模型集合了所有的模态,覆盖了文本、视觉和音频。听起来有些抽象,我来描述一下发布会的场景,让大家更好地理解。
发布会现场,OpenAI的工程师拿出一部iPhone,对手机说:“我第一次来直播的发布会,有点紧张。”ChatGPT回应道:“要不你深呼吸一下。”工程师深呼吸后,AI马上说:“你这不行,喘得声音也太大了。”这感觉非常科幻,简直像是与朋友面对面聊天。

如果你经常使用AI语音助手,会明显发现OpenAI的颠覆性。我观察到了六个细节:
第一个细节,这是真实的实时语音交互。你不用说完话等待AI加载或反应,这个模型能在232毫秒内响应音频输入,与人类反应时间相似。
第二个细节,你可以随时打断它,不必等它说完。以前用其他产品时,AI常常喋喋不休地输出,而我们可能已经知道不是想要的结果,必须手动让AI停止输出,容易让人出戏。但这次OpenAI的模型允许你直接打断,说出你想说的话,它会继续与你交流。就像朋友抱怨领导时,你可以打断说“咱俩还是聊聊足球吧”,AI会立即切换话题。
第三个细节是AI对呼吸的感知。工程师深呼吸,AI回应道“你这喘得也太大了”,说明AI不仅能感受到呼吸的节奏,回复也非常自然,而不是像一些AI那样生硬地给出知识库里的冗长解释。
第四个细节,另一位工程师在纸上写了一个方程式,让ChatGPT解释解题步骤而非直接给出答案。AI可以对代码和图表进行准确回答,这个细节在教育场景中具有巨大潜力。比如,AI可以24小时随时待命进行一步步教学,对学校教育和职业培训产生革命性影响。程序员们也可以拥有自己的AI搭档进行“结对编程”,相互讨论、提醒和检查代码。
第五个细节,AI能识别视频中人物的表情。虽然视频较短,但想象空间巨大。AI识别到不同情绪后,能用不同方式互动。当你开心、愤怒、沮丧或无聊时,AI能体贴地陪伴。现在职场和中小学中,心理问题频发,许多学校都要求配备心理医生,但一个心理医生难以覆盖所有有心理问题的孩子。这种情况下,AI心理医生可以疏导孩子情绪,并在情绪波动时启动应急方案,让专业医疗机构和学校及时介入,避免极端事件。
第六个细节是与图片进行对话。比如打开冰箱,拍张照片,问AI“这顿饭可以做什么?”它会根据冰箱里的食材提供菜谱,整个交互非常流畅。如果AI记录的东西足够多,当你遇到一个熟人却忘记他是谁时,只需拍张照片,AI会调出历史记录,帮你回忆起你们的相识经历,让你不再尴尬。
这些细节展示了GPT-4o模型的强大能力,让我们看到了AI技术的未来前景。OpenAI的这一突破不仅让科幻变成现实,也为我们日常生活带来了更多可能性。

本文链接:https://gpt5.fans/chatgpt5_49.html

GPT-4o人机交互取得进步GPT-40亮相后科技股不所动GPT-4o第一波反馈来了GPT-40免费GPT-40评测

相关文章

网友评论