免费使用!百度重磅发布文心4.5、X1,视频解读+深度思考

​ AIGC开放社区公众号

14小时前

根据百度官方介绍,文心4.5主要使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多种创新技术,使其在多模态的理解和生成方面得到了质的飞跃。

昨天,百度发布了两款大模型文心4.5和X1,已全部上线并且免费使用。

文心4.5是一款多模态模型,能对文字、图片、视频、音频等内容进行综合解读。例如,给一个视频,让其对内容识别然后再写一份深度分析(非常不错可以解读英文)。能力大幅度超过OpenAI的GPT-4o。

X1和DeepSeek-R1一样具备深度思考能力,能对提出的问题进行理解、规划、反思、进化能力,同样支持多模态。

此外,X1也是首个能自动调用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等众多特色工具。所以,X1更像是一个推理能力超强的智能体。

图片

免费体验地址:https://yiyan.baidu.com/X1

文心4.5和X1案例展示

其实多模态理解已经成为国内外大模型的标配,但能直接高效准确解读视频的模型并不多。而文心4.5就具备这种特殊能力。

这里就用今天咱们二条发布的,美国陆军收到首个AI模型驱动的军 事情报战车TITAN宣传视频做解读案例。

因为这是刚出的视频,大概率不在预训练模型的数据范围内,能很好地考验文心4.5基于多模态的理解能力,对全新未知内容的分析水平

需要注意的是,上传的视频不能超过20M,支持Mp4、MOV、MKV等常规格式

上传完视频后,提问,这是一个什么视频?大约用了不到1分钟,解读效率还是相当高的。

图片

文心4.5给出了完整TITAN答案,解读基本上是正确的,可以比肩谷歌的NoteGPT。这个功能对于需要快速了解国外学术介绍、娱乐影视的人来说很有帮助。如果视频太大,记得可以先压缩之后再上传。

图片

音频解读一样准确高效,一次可以上传10个音频,单个最大别超过10M,支持mp3、m4a、wav等常规格式,有兴趣的小伙伴可以体验一下。

再体验一下X1,其特殊能力就是能自动调用多种其他工具。

例如,让X1自动解读一下电影《肖申克救赎》的海报,直接提问“这是一张什么图片?”

图片

图片

X1开启了深度思考模式,我们可以清楚看到它自动调用了图片理解工具,帮它来解读这张图片

在得到结果后,总结出了图片的主题秒速、背景与色调、风格设计等主要框架,最后进行了完整的输出。

图片

我们接着提问,根据这个电影写一份200字的影评。文本风格欢快一些,最好带点网络梗。

这次X1没有调用别的工具,因为只是简单的文本生成,但也会梳理一下输出逻辑,包括影评基调、加入网络梗、内容点评等。

图片

图片

最后输出的结果如下:

《肖申克的救赎》yyds!这部片子简直是"监狱版《越狱》"的鼻祖,蒂姆·罗宾斯演的安迪简直是个"神级挖坑王",用一把小鹤嘴锄挖出自由之路,看得人热血沸腾!

摩根·弗里曼的旁白更是"金句制造机","希望是好事,也许是人间至善"这句话,我直接原地emo转鸡血!影片节奏就像"德芙巧克力,纵享丝滑",看完感觉心灵都被"越狱"了!姐妹们,答应我,没看过的一定要冲,这片子保熟!

感觉写的还行,有小红书那味儿了吧。可以在这个基础之上改一改就能直接出文案了。

至于价格方面,个人用户是免费使用这两款大模型;企业开发者在百度智能云千帆大模型平台,现在能直接使用文心4.5API,输入价格低至0.004元/千tokens,输出价格低至0.016元/千tokens;

X1也即将在千帆平台上线,输入价格低至0.002元/千tokens,输出价格低至0.008元/千tokens。

图片

文心4.5和X1架构简单介绍

根据百度官方介绍,文心4.5主要使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多种创新技术,使其在多模态的理解和生成方面得到了质的飞跃。

传统的注意力掩码计算在处理长序列时往往面临效率瓶颈,而FlashMask通过动态调整注意力掩码的方式,能够加速计算过程。使得模型在处理长文本或长序列数据时表现更加出色。还能优化多轮交互场景下的性能,这对于需要连续对话或长文本生成的应用场景具有重要意义。

多模态异构专家扩展技术主要解决不同模态之间的梯度不均衡难题。在多模态模型中,图像、文本、音频等不同模态的数据特性差异很大,导致它们在训练过程中梯度更新速度不一致,进而影响模型的整体性能。

通过构建模态异构专家,为每种模态设计专门的处理模块,并结合自适应模态感知损失函数,该技术能够动态调整各模态的权重,从而平衡梯度更新,提升多模态融合的效果

图片

时空维度表征压缩技术针对的是多模态数据中的图片和视频语义表征。在多模态训练中,图片和视频的语义信息往往需要大量的计算资源来处理,尤其是长视频数据。

通过在时空维度对这些语义表征进行高效压缩,大幅减少了计算量,提升了多模态数据的训练效率。同时,还增强了模型从长视频中提取世界知识的能力,这对于提升模型对复杂场景的理解和生成能力至关重要。

根据测试数据显示,文心4.5的原生多模态能力,在CCBench、OCRBench、MMMU、MathVista等主流基准测试中,大幅度超过了OpenAI发布的GPT-4o。

图片

X1的深度思考能力则应用了基于思维链和行动链的端到端训练,将输入直接映射到输出的训练方式,避免了传统多阶段训练中可能出现的信息丢失和误差累积问题

在深度搜索场景中,模型不仅需要考虑搜索结果的相关性,还需要理解用户的搜索意图,通过思维链的构建,将用户的意图分解为一系列的逻辑步骤,然后通过行动链将这些步骤转化为具体的搜索行为。

例如,当用户输入一个复杂的查询请求时,模型首先通过思维链理解用户可能需要的信息类型、范围和优先级,然后通过行动链调用不同的搜索工具或算法,逐步细化搜索结果,最终提供最符合用户需求的答案。这种端到端的训练方式能够根据最终的结果反馈,直接调整模型的参数,从而显著提升训练效果。

百度表示,未来会开源文心4.5大模型。

(举报)

根据百度官方介绍,文心4.5主要使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多种创新技术,使其在多模态的理解和生成方面得到了质的飞跃。

昨天,百度发布了两款大模型文心4.5和X1,已全部上线并且免费使用。

文心4.5是一款多模态模型,能对文字、图片、视频、音频等内容进行综合解读。例如,给一个视频,让其对内容识别然后再写一份深度分析(非常不错可以解读英文)。能力大幅度超过OpenAI的GPT-4o。

X1和DeepSeek-R1一样具备深度思考能力,能对提出的问题进行理解、规划、反思、进化能力,同样支持多模态。

此外,X1也是首个能自动调用高级搜索、文档问答、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询等众多特色工具。所以,X1更像是一个推理能力超强的智能体。

图片

免费体验地址:https://yiyan.baidu.com/X1

文心4.5和X1案例展示

其实多模态理解已经成为国内外大模型的标配,但能直接高效准确解读视频的模型并不多。而文心4.5就具备这种特殊能力。

这里就用今天咱们二条发布的,美国陆军收到首个AI模型驱动的军 事情报战车TITAN宣传视频做解读案例。

因为这是刚出的视频,大概率不在预训练模型的数据范围内,能很好地考验文心4.5基于多模态的理解能力,对全新未知内容的分析水平

需要注意的是,上传的视频不能超过20M,支持Mp4、MOV、MKV等常规格式

上传完视频后,提问,这是一个什么视频?大约用了不到1分钟,解读效率还是相当高的。

图片

文心4.5给出了完整TITAN答案,解读基本上是正确的,可以比肩谷歌的NoteGPT。这个功能对于需要快速了解国外学术介绍、娱乐影视的人来说很有帮助。如果视频太大,记得可以先压缩之后再上传。

图片

音频解读一样准确高效,一次可以上传10个音频,单个最大别超过10M,支持mp3、m4a、wav等常规格式,有兴趣的小伙伴可以体验一下。

再体验一下X1,其特殊能力就是能自动调用多种其他工具。

例如,让X1自动解读一下电影《肖申克救赎》的海报,直接提问“这是一张什么图片?”

图片

图片

X1开启了深度思考模式,我们可以清楚看到它自动调用了图片理解工具,帮它来解读这张图片

在得到结果后,总结出了图片的主题秒速、背景与色调、风格设计等主要框架,最后进行了完整的输出。

图片

我们接着提问,根据这个电影写一份200字的影评。文本风格欢快一些,最好带点网络梗。

这次X1没有调用别的工具,因为只是简单的文本生成,但也会梳理一下输出逻辑,包括影评基调、加入网络梗、内容点评等。

图片

图片

最后输出的结果如下:

《肖申克的救赎》yyds!这部片子简直是"监狱版《越狱》"的鼻祖,蒂姆·罗宾斯演的安迪简直是个"神级挖坑王",用一把小鹤嘴锄挖出自由之路,看得人热血沸腾!

摩根·弗里曼的旁白更是"金句制造机","希望是好事,也许是人间至善"这句话,我直接原地emo转鸡血!影片节奏就像"德芙巧克力,纵享丝滑",看完感觉心灵都被"越狱"了!姐妹们,答应我,没看过的一定要冲,这片子保熟!

感觉写的还行,有小红书那味儿了吧。可以在这个基础之上改一改就能直接出文案了。

至于价格方面,个人用户是免费使用这两款大模型;企业开发者在百度智能云千帆大模型平台,现在能直接使用文心4.5API,输入价格低至0.004元/千tokens,输出价格低至0.016元/千tokens;

X1也即将在千帆平台上线,输入价格低至0.002元/千tokens,输出价格低至0.008元/千tokens。

图片

文心4.5和X1架构简单介绍

根据百度官方介绍,文心4.5主要使用了FlashMask动态注意力掩码、多模态异构专家扩展、时空维度表征压缩技术等多种创新技术,使其在多模态的理解和生成方面得到了质的飞跃。

传统的注意力掩码计算在处理长序列时往往面临效率瓶颈,而FlashMask通过动态调整注意力掩码的方式,能够加速计算过程。使得模型在处理长文本或长序列数据时表现更加出色。还能优化多轮交互场景下的性能,这对于需要连续对话或长文本生成的应用场景具有重要意义。

多模态异构专家扩展技术主要解决不同模态之间的梯度不均衡难题。在多模态模型中,图像、文本、音频等不同模态的数据特性差异很大,导致它们在训练过程中梯度更新速度不一致,进而影响模型的整体性能。

通过构建模态异构专家,为每种模态设计专门的处理模块,并结合自适应模态感知损失函数,该技术能够动态调整各模态的权重,从而平衡梯度更新,提升多模态融合的效果

图片

时空维度表征压缩技术针对的是多模态数据中的图片和视频语义表征。在多模态训练中,图片和视频的语义信息往往需要大量的计算资源来处理,尤其是长视频数据。

通过在时空维度对这些语义表征进行高效压缩,大幅减少了计算量,提升了多模态数据的训练效率。同时,还增强了模型从长视频中提取世界知识的能力,这对于提升模型对复杂场景的理解和生成能力至关重要。

根据测试数据显示,文心4.5的原生多模态能力,在CCBench、OCRBench、MMMU、MathVista等主流基准测试中,大幅度超过了OpenAI发布的GPT-4o。

图片

X1的深度思考能力则应用了基于思维链和行动链的端到端训练,将输入直接映射到输出的训练方式,避免了传统多阶段训练中可能出现的信息丢失和误差累积问题

在深度搜索场景中,模型不仅需要考虑搜索结果的相关性,还需要理解用户的搜索意图,通过思维链的构建,将用户的意图分解为一系列的逻辑步骤,然后通过行动链将这些步骤转化为具体的搜索行为。

例如,当用户输入一个复杂的查询请求时,模型首先通过思维链理解用户可能需要的信息类型、范围和优先级,然后通过行动链调用不同的搜索工具或算法,逐步细化搜索结果,最终提供最符合用户需求的答案。这种端到端的训练方式能够根据最终的结果反馈,直接调整模型的参数,从而显著提升训练效果。

百度表示,未来会开源文心4.5大模型。

(举报)

展开
打开“财经头条”阅读更多精彩资讯
APP内打开