H2O.ai宣布其AI大模型已经接近人类通用智能

芯智讯

5天前

GAIA基准测试衡量AI系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。

当地时间12月26日,H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA(通用 AI 助手)基准排行榜上名列前茅,超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

GAIA 基准上的这一显着成就表明,H2O.ai 正在主导通用 AI 代理的新兴领域,为该行业树立了新的黄金标准。

H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA(通用 AI 助手)基准排行榜上名列前茅,超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

这一非凡的成就表明,H2O.ai 正在主导通用 AI 代理的新兴领域,为该行业树立了新的黄金标准。

GAIA 基准测试衡量 AI 系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。它包括数百个挑战,需要费力的研究、数据分析、文档处理和推理。持有学位的人类受访者的分数为 92%,需要几个人类日来解决所有 300 个测试集问题。

h2oGPTe Agent 通过提供始终如一的稳健性、准确性和效率超越了竞争对手,凸显了它为严重依赖熟练人工助理的企业用例做好了准备。

H2O.ai 创始人兼首席执行官 Sri Ambati 评论道:“今天我们宣布,AI 距离 GAIA 基准上人类水平的一般智能仅差 30%。GAIA 中的开放式问题是比 MMLU 更好的智力衡量标准,MMLU 依赖于多项选择。仅仅一年前,整个 Gen AI 生态系统在最严格的 AGI 基准测试之一的准确率上勉强通过十分之一。

“H2O.ai 的创客们构建了 h2oGPTe 代理 AI,它使用世界上最好的模型进行推理、多模态图像、视频、语言理解、代码生成和执行,以惊人的 15% 的准确率超越了 GAIA 基准测试,比 Google Deepmind 的研究人员使用相同的 Claude-3.5-Sonnet 创下的之前记录高出 3.5%。h2oGPTe 代理还击败了 Microsoft Research 的代理 Magentic-1,后者使用 OpenAI 的 o1 模型 27%。

“Agentic AI 正在蚕食 SaaS,随着 h2oGPTe Agentic AI 现已全面推出,我们所有的企业客户都可以解决各种复杂的商业和研究问题。”

H2O.ai 在 GAIA 上的成功凸显了其简单性和适应性的理念,包括:

用于解决复杂的实际任务的高级推理和规划。
跨文本、图像和音频的多模态理解,实现无缝的上下文理解。
集成 Python 执行和 DriverlessAI 等企业工具,用于预测分析和决策。

编辑:芯智讯-林子

往期精彩文章

英伟达RTX 5090主板曝光:硕大的GB202 GPU,16颗GDDR7显存,TBP 600W
ASML CEO专访:中国芯片制造技术落后西方10-15年!
美对华成熟制程芯片发起“301调查”!中方回应
中国厂商占据全球SiC专利申请量的70%!
传美国计划将算能科技列入实体清单!
英诺赛科即将登陆港股:氮化镓分立器件累计出货量全球第一!
美国计划禁售TP-Link路由器!
美国半导体出口管制没有“回头路”!
台积电2nm细节公布:性能提升15%,功耗降低35%
AI芯片收入暴涨220%!博通股价大涨24%,市值突破1万亿美元!
ASML收购Mapper的背后故事:中美俄荷四方暗斗
意法半导体/恩智浦/英飞凌为何转向“中国制造”?
谁“偷了”华为红枫原色影像技术?

行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116

GAIA基准测试衡量AI系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。

当地时间12月26日,H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA(通用 AI 助手)基准排行榜上名列前茅,超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

GAIA 基准上的这一显着成就表明,H2O.ai 正在主导通用 AI 代理的新兴领域,为该行业树立了新的黄金标准。

H2O.ai 宣布其 h2oGPTe Agent 以前所未有的 65% 的得分在 GAIA(通用 AI 助手)基准排行榜上名列前茅,超过了 Google Langfun Agent 的 49%、Microsoft Research 的 38% 和 Hugging Face 的 33%。

这一非凡的成就表明,H2O.ai 正在主导通用 AI 代理的新兴领域,为该行业树立了新的黄金标准。

GAIA 基准测试衡量 AI 系统在解决熟练人类需要大量时间、思考和精力的现实任务方面的有用程度。它包括数百个挑战,需要费力的研究、数据分析、文档处理和推理。持有学位的人类受访者的分数为 92%,需要几个人类日来解决所有 300 个测试集问题。

h2oGPTe Agent 通过提供始终如一的稳健性、准确性和效率超越了竞争对手,凸显了它为严重依赖熟练人工助理的企业用例做好了准备。

H2O.ai 创始人兼首席执行官 Sri Ambati 评论道:“今天我们宣布,AI 距离 GAIA 基准上人类水平的一般智能仅差 30%。GAIA 中的开放式问题是比 MMLU 更好的智力衡量标准,MMLU 依赖于多项选择。仅仅一年前,整个 Gen AI 生态系统在最严格的 AGI 基准测试之一的准确率上勉强通过十分之一。

“H2O.ai 的创客们构建了 h2oGPTe 代理 AI,它使用世界上最好的模型进行推理、多模态图像、视频、语言理解、代码生成和执行,以惊人的 15% 的准确率超越了 GAIA 基准测试,比 Google Deepmind 的研究人员使用相同的 Claude-3.5-Sonnet 创下的之前记录高出 3.5%。h2oGPTe 代理还击败了 Microsoft Research 的代理 Magentic-1,后者使用 OpenAI 的 o1 模型 27%。

“Agentic AI 正在蚕食 SaaS,随着 h2oGPTe Agentic AI 现已全面推出,我们所有的企业客户都可以解决各种复杂的商业和研究问题。”

H2O.ai 在 GAIA 上的成功凸显了其简单性和适应性的理念,包括:

用于解决复杂的实际任务的高级推理和规划。
跨文本、图像和音频的多模态理解,实现无缝的上下文理解。
集成 Python 执行和 DriverlessAI 等企业工具,用于预测分析和决策。

编辑:芯智讯-林子

往期精彩文章

英伟达RTX 5090主板曝光:硕大的GB202 GPU,16颗GDDR7显存,TBP 600W
ASML CEO专访:中国芯片制造技术落后西方10-15年!
美对华成熟制程芯片发起“301调查”!中方回应
中国厂商占据全球SiC专利申请量的70%!
传美国计划将算能科技列入实体清单!
英诺赛科即将登陆港股:氮化镓分立器件累计出货量全球第一!
美国计划禁售TP-Link路由器!
美国半导体出口管制没有“回头路”!
台积电2nm细节公布:性能提升15%,功耗降低35%
AI芯片收入暴涨220%!博通股价大涨24%,市值突破1万亿美元!
ASML收购Mapper的背后故事:中美俄荷四方暗斗
意法半导体/恩智浦/英飞凌为何转向“中国制造”?
谁“偷了”华为红枫原色影像技术?

行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116

展开
打开“财经头条”阅读更多精彩资讯
APP内打开