白话总结版:
1. o1开启的大语言模的新范式,从模仿模型提升到了推理模型。从此模型不再只是模仿人类的语言行为,而是具有自主推理能力。
2. self-play RL是突破人类上限的利器,模型可以在相互博弈中自我提升,不再受限于人类知识(人类语料已经耗尽了)。
3. CoT是思考系统2的实现过程,把CoT融入到模型的训练过程等同于延长放大大语言模型系统2的过程和能力。
4. 上面二者叠加的结果就是模型会思考、爱思考、爱反思还会总结,直接上天。可以看得出随着模型迭代,以后CoT过程可能是纯token标识,不一定是人类语言,因为人类语言设计并不完美,也存在天花板。
5. 当前能力下的o1更适合做逻辑密度高且推理链路长度有限的逻辑推理。不太适合做逻辑稀疏、推理链接很长、未经抽象化的推理任务。随着模型升级,这些任务应该会慢慢变得可行。
6. o1仅仅做了CoT RL,所以在逻辑推理上进步明显,但非推理任务表现和gpt-4o差不多甚至略差。
7. 强逻辑推理模型这是独一份儿,解锁大量商业场景。
以下是对官方文档的一些思考,重要内容已经总结在上面了。
-----------------------------------------------
Introducing OpenAI o1-preview
https://openai.com/index/introducing-openai-o1-preview/
o1特别强调了主打science, coding, and math
这个说法很像self-play RL。
单文字模态模型,可能FC还没被训进去。特别强调了专注在逻辑推理,其他能力还不太足。
视频演示了经济学问题推理,代码推理,基因学推理,量子物理推理。除了感受到openai宣传片做的质量高之外,也感受到o1模型适合做密集的逻辑推理(类似写论文),可能不适合做稀疏的长程推理。
而且对于未经过抽象化的逻辑,推理性能会消耗明显,因为抽象化过程本身就会消耗大量推理算力,除非该抽象化过程已经是世界知识了。
根据视频中的问题的感受,这个推理程度提升并没有想象中那么大,那么有冲击力,新模型提升到的程度更像是原本最强模型用力跳一跳能够得着位置。
o1-mini更专注在coding,因此其他逻辑推理可能弱一些。
ChatGPT就算是开的Plus,初期给的额度很小。由于CoT过程很长,我用API调用新模型,一次烧掉$0.5很常见。按照ChatGPT每周30条的额度算,一个月就可以烧掉$60。要知道ChatGPT的月费才$20。
API额度给的大方些,毕竟实打实按量付费,不过也限制了使用人群。Tier5是现在OpenAI API中的最高等级。FC、streaming和system prompt都还不支持。
-----------------------------------------------
Learning to Reason with LLMs
https://openai.com/index/learning-to-reason-with-llms/
清晰的表明确实用的是CoT和RL来训练的模型。
现在开放使用的是o1-preview,但是看OpenAI的分析,o1是比o1-preview更强的模型,后续估计会慢慢放出。
传统测试集已经满足不了模型的发展了,现在用的是顶尖人类测试集。模型能力正在越过人类平均水平,靠拢人类顶尖水平。
确认是Self-play RL,因为有refine的过程。
从Cipher这个案例中能观察到两个点:
1. 思考过程可以非常的长,意味着新模型的输出上限有比较大的提升之外,输出质量没有降低,后半程的推理水平还是很高。
2. 传统的CoT没有辨识错误再进行二次修正的能力,但这次self-play出来的CoT显然进化了,能不断检视到自己的分析错误,再进行修正分析,做到真正的连续推理。回想咱们人类的推理过程也是这样的,推理-评估-回退-推理。有了评估和回退的思维链路,推理才能往正确方向延伸下去。
毕竟CoT对非推理任务帮助有限,推理模型仅在推理上得到极大提升,其他低推理任务和普通模型相近甚至略差。
以后模型不止自己要正能量,也要开始教人类正能量了。
模型在CoT时倾向于不管内容是否有害,都把内容都展露出来,然后再思考这个东西能不能讲。OpenAI隐藏CoT应该是为了避免有害内容在思考过程中可以直接获得,就只展示CoT的总结。
当然更重要的是避免别人拿去训练模型,CoT过程是最好的蒸馏语料。
OpenAI o1-mini
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
o1-mini是用小模型来做self-play CoT RL,所以是一个知识量少+推理能力强的模型。而因为知识量少,o1-mini的推理仅在stem范围内有奇效。其他需要广泛知识的领域,即使推理能力强,因为缺乏认知也推不动,推不好。
因为CoT需要大量的输出,速度的区别显得尤为突出。o1-mini速度比o1快3-5倍。
文档说o1-mini的知识量和4o-mini差不多。猜测o1-mini很可能是和4o-mini一个参数量(过去我猜测过是8B),甚至o1-mini是在4o-mini的基础上self-play RL出来的。
这样的话o1就很可能是从gpt-4o的基础上用同样方式RL出来的。
-----------------------------------------------
Reasoning models
https://platform.openai.com/docs/guides/reasoning
因为新模型仅在推理有很强的提升,其他方面变化不大,OpenAI不推荐把所有任务都换用新模型,特别不建议在写作类上切换。
新模型当前仅支持最简单的API调用方法和参数。
连续的对话过程中,上下文会把CoT部分丢弃,意味着冗长的思考过程不占用下一次调用的Context。当然因为用的是Chat Completions API,本身是无状态的,既然CoT不会返回给用户,那用户传过去的上下文也就包含不了CoT过程。
这里印证了上面的猜测,o1和o1-mini的输出上限果然提升了,分别是32k和64k。现在的gpt-4o是16k。
新模型在prompt上面就不能用老方法了,参照以下新方法。
因为内置CoT,prompt的时候就不用再给CoT指令,也可以不用few-shot了。
用最清晰最直接的prompt效果最好。
另外因为新模型强行做了逻辑推理增强,以前那种用RAG喂入过量信息来提升回答的做法反而会产生反效果,因为模型会对着大量无用信息做无效推理。
不过从释出的Example中可以看到,虽然不需要给CoT指令,我们还是可以给列计划的指令。
-----------------------------------------------
Introducing o1: OpenAI’s new reasoning model series for developers and enterprises on Azure
https://azure.microsoft.com/en-us/blog/introducing-o1-openais-new-reasoning-model-series-for-developers-and-enterprises-on-azure/
在OpenAI发布o1的同时,Azure官网也上了对o1模型的说明页面。Azure的内容感觉是微软自己写的,因为有些点在OpenAI那完全没看到。比如这里有明确提到o1适合做脑暴和对比性分析。
这里也提到一个OpenAI没说的点,o1适合做短上下文的workflow管理。这个也印证了前面的分析,o1适合做密集推理,不适合做稀疏长程推理。
最后是两个很有意思的案例,可以一窥o1的商业前景。
第一个是Github Copilot,也就是辅助编程。这个点在OpenAI和Azure的模型描述中一直有提及,o1-preview在编程上有很大提升,o1和o1-mini提升更大。这个使用场景比较直观。
第二个点是法律文书的推理,这个就更有意思了。之前的模型在这种强逻辑、密集逻辑、顺序推理的文本中只能做到模仿,做不到真正的连续逻辑推理。推理能力差,而且推理链路易断、易错。所以在法律文本这类场景下之前的模型只能做基础辅助,没法实现自动化文书生成。
o1模型在密集推理、顺序推理的极大提升,显然让这种自动化变得可能。比如法律文书的推理需求是100%,以前的模型一次只能完成5%的推理,多次推理因为前序逻辑链路太长会成为负担,所以可能最多调用5次,完成25%的逻辑推理就到头了。现在o1一次调用能完成25%的逻辑推理,尽管多次推理存在前序逻辑负担的衰减,然而仅需要4次就完成100%的推理任务,自动化也就有可能了。而从Cipher的CoT过程可以看到,o1在较远距离推理中依然保持相当高的逻辑能力。
o1模型在这类逻辑密度高且推理链路长度可控的商业场景下是颠覆式的。
本文链接:https://gpt5.fans/chatgpt5_66.html
OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介
网友评论