港股概念追踪 | “剑指”AGI！OpenAI发布新一代推理模型o3 大模型落地应用有望加速(附概念股)

财经头条

提升一亿中产阶级阅读效率

打开

智通财经

3天前

OpenAI声称，至少在某些条件下，o3模型可以接近实现AGI。

智通财经APP获悉，OpenAI离AGI(artificial general intelligence，通用人工智能)似乎又更近了一步。上周五，在“OpenAI 12天活动”的第12天，OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini，这两款模型是在今年早些时候推出的o1模型的基础上开发的。OpenAI声称，至少在某些条件下，o3模型可以接近实现AGI。

OpenAI在9月份推出了o1系列大模型，他们上周五推出o3系列，在命名上就越过了o2，没有遵循数字一样的连续命名方式。对于越过o2，有报道称可能是为了避免和英国电信运营商O2在命名上产生纷争。而在当天的直播中，萨姆·奥尔特曼承认了他们在命名上的不足，他表示基于OpenAI不太擅长命名的传统，新的大模型被命名为o3。

同9月份推出的o1系列大模型一样，OpenAI新宣布的o3系列大模型也有o3和o3 mini两款，不过尚未正式发布，o3 mini是预计会在明年年初发布。

从OpenAI方面公布的消息来看，o3大模型在测试中的表现明显强于他们之前推出的大模型，在部分测试中的表现已经达到了人类的水平。

在ARC-AGI测试中，o3在低推理能力设置下的得分达到了75.7%，是o1的3倍，在高推理能力设置下则是高达87.5%，超过了85%的人类门槛。

在数学推理及解决问题的能力方面，o3也表现不俗，在2024年AIME测试中，o3的准确率达到了96.7%。

在编码和软件工程方面，o3的能力较o1也有大幅提升，在SWE-Bench认证中，o3的得分为71.7%，较o1提升了22.8个百分点。

值得注意的是，有报道提到，在Codeforces的测试中，o3的得分为2727，比OpenAI首席科学家的得分还高。Codeforces是一家为计算机编程爱好者提供在线评测的网站，是一个面向程序员的在线竞赛平台。

除了OpenAI，各家AI公司近期也纷纷发布推理模型。

11月16日，月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math；11月20日，DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版；11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview。

在当地时间12月19日，谷歌也发布首个推理模型Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式，可以深度可视化展示整个思维链过程，尤其是在执行数学、编程等复杂问题方面。相比o1，Gemini 2.0 Flash Thinking的最大差别是，让用户能看到一步一步推理的过程，更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过，谷歌的这一新模型还处于实验性阶段，只是一个早期版本。

国金证券认为，从中美资本市场AI产业链的表现看，此前持续表现强劲的是上游，近期表现强势的是AI应用。从落地方向上看，综合考虑成本与付费能力，可能先行的是To B方向降本增效，生产力工具可能先行，然后是To C的大用户量工具、图文级别的社交娱乐类产品、海量的多媒体娱乐产品。展望未来，随着大模型使用成本持续下降、中文语言模型能力继续提升背景下，落地应用有望加速，中国企业有文化基础、数据积累、场景理解、工程应用、客情关系等优势，有机会形成自己的产业龙头。

申万宏源称，北京时间2024年12月21日，OpenAI在连续12发布会收官之日宣布了o3系列模型，包括o3和o3 mini，较o1 模型再一次突破AI 极限。近阶段大模型启示：1)大模型进展从预训练端转变为推理端;2)大模型进入Agent爆发时代;3)利好推理端算力需求;4)应用方面围绕解决复杂任务能力的出现，利好科学研究、编程软件开发、办公软件、医疗健康、金融等领域。

港股相关概念股：

创新奇智(02121)：公司“AI+制造业”的持续驱动力充足。公司从2023年开始，实施AI1.0和AI2.0双塔发展，AI2.0逐步推出ChatX系列垂类大模型的应用落地和预研，并在今年3月底发布了AnnoGC-75B工业大模型(750亿参数)，在15B大模型的基础上增加了多模态。目前ChatX已包括ChatBI，ChatDoc，Chatvision，ChatCAD和Chatrobot等5大主要落地产品。公司9大细分领域覆盖公司的工业软件，数智软件，工业物流，智能装备和工业可持续五大场景，ChatBI已在食品饮料智造领域的工业软件和数智软件场景规模落地，ChatDoC和Chatvision在工业可持续场景规模落地。ChatCAD在CAD工业设计领域想象空间更大，通过大模型可以改写传统CAD设计模式，通过文字，语言直接进行CAD设计，大幅提升CAD设计效率，预计今年公司开始ChatCAD的落地实践工作。ChatRobot是大模型驱动工业机器人自动任务编排，驱动和实施工作部署，公司在大模型发布会上已做了现场演示，虽然还在预研验证阶段，但已初步具备工业应用的落地前景，潜力大。

百度集团-SW(09888)：百度文心大模型截至2024年11月的日均tokens(token是大模型文本处理的最小单位)调用量超过1.5亿次，比一年前的5000万次实现了约30倍的增长，文心一言用户量达到7000万。

阿里巴巴-SW(09988)：阿里云在5月初发布的通义千问2.5，得分就追平GPT-4 Turbo。目前，阿里已经投资了Minimax、月之暗面、零一万物、智谱AI、百川智能等国内主流大模型创业公司。

商汤-W(00020)：公司在2024年的上交会上展示了其最新的医疗健康大模型——“大医”，这一模型代表了商汤在医疗AI领域的最新成果。在专业医学任务评测中，“大医”在检验检查问答、电子病历生成、线上问诊、导诊、随访、辅助诊断决策等多项医疗任务上的表现已超越GPT-4。

中兴通讯(00763)：公司重视在人工智能领域布局与投入，凭借领先的软硬件数智基座能力，提供端到端的智算解决方案，包括智算基础设施、AI软件平台、大模型及应用，满足不同场景需求，助力企业数智化转型。