H2O.ai宣布其AI大模型已经接近人类通用智能

财经头条

提升一亿中产阶级阅读效率

打开

芯智讯

5天前

GAIA基准测试衡量AI系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。

当地时间12月26日，H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA（通用 AI 助手）基准排行榜上名列前茅，超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

GAIA 基准上的这一显着成就表明，H2O.ai 正在主导通用 AI 代理的新兴领域，为该行业树立了新的黄金标准。

H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA（通用 AI 助手）基准排行榜上名列前茅，超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

这一非凡的成就表明，H2O.ai 正在主导通用 AI 代理的新兴领域，为该行业树立了新的黄金标准。

GAIA 基准测试衡量 AI 系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。它包括数百个挑战，需要费力的研究、数据分析、文档处理和推理。持有学位的人类受访者的分数为 92%，需要几个人类日来解决所有 300 个测试集问题。

h2oGPTe Agent 通过提供始终如一的稳健性、准确性和效率超越了竞争对手，凸显了它为严重依赖熟练人工助理的企业用例做好了准备。

H2O.ai 创始人兼首席执行官 Sri Ambati 评论道：“今天我们宣布，AI 距离 GAIA 基准上人类水平的一般智能仅差 30%。GAIA 中的开放式问题是比 MMLU 更好的智力衡量标准，MMLU 依赖于多项选择。仅仅一年前，整个 Gen AI 生态系统在最严格的 AGI 基准测试之一的准确率上勉强通过十分之一。

“H2O.ai 的创客们构建了 h2oGPTe 代理 AI，它使用世界上最好的模型进行推理、多模态图像、视频、语言理解、代码生成和执行，以惊人的 15% 的准确率超越了 GAIA 基准测试，比 Google Deepmind 的研究人员使用相同的 Claude-3.5-Sonnet 创下的之前记录高出 3.5%。h2oGPTe 代理还击败了 Microsoft Research 的代理 Magentic-1，后者使用 OpenAI 的 o1 模型 27%。

“Agentic AI 正在蚕食 SaaS，随着 h2oGPTe Agentic AI 现已全面推出，我们所有的企业客户都可以解决各种复杂的商业和研究问题。”

H2O.ai 在 GAIA 上的成功凸显了其简单性和适应性的理念，包括：

用于解决复杂的实际任务的高级推理和规划。
跨文本、图像和音频的多模态理解，实现无缝的上下文理解。
集成 Python 执行和 DriverlessAI 等企业工具，用于预测分析和决策。

编辑：芯智讯-林子

往期精彩文章

英伟达RTX 5090主板曝光：硕大的GB202 GPU，16颗GDDR7显存，TBP 600W

ASML CEO专访：中国芯片制造技术落后西方10-15年!

美对华成熟制程芯片发起“301调查”！中方回应

中国厂商占据全球SiC专利申请量的70%！

传美国计划将算能科技列入实体清单！

英诺赛科即将登陆港股：氮化镓分立器件累计出货量全球第一！

美国计划禁售TP-Link路由器！

美国半导体出口管制没有“回头路”！

台积电2nm细节公布：性能提升15%，功耗降低35%

AI芯片收入暴涨220%！博通股价大涨24%，市值突破1万亿美元！

ASML收购Mapper的背后故事：中美俄荷四方暗斗

意法半导体/恩智浦/英飞凌为何转向“中国制造”？

谁“偷了”华为红枫原色影像技术？

行业交流、合作请加微信：icsmart01
芯智讯官方交流群：221807116