“今天,文字层面的RAG已经做得很好了,但是图像等多模态内容和RAG的结合还不够。大家请看这张图,这是我们用一个开源模型生成的一张北京天坛的图片,看上去确实有点像天坛,但总觉得哪儿不对。告诉大家,真正的天坛长这样,是三层,但模型生成了四层,这是文生图比较典型的幻觉现象。这种幻觉现象,今天仍然很普遍,所以今天的多模态大模型,没有什么成规模的应用出来。就是幻觉没有解决,至少没有像文生文RAG解决得那么好。”“今年年初,我们决定要解决图像生成的幻觉问题。我们开发了一项颠覆性的技术叫做iRAG,就是image based RAG,检索增强的文生图技术。之前,完全基于大语言模型的文生图系统,生成的图片常常是“一眼假”,甚至是逻辑不合常理。百度的iRAG,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,就可以生成各种超真实的图片,整体效果远远超过文生图原生系统,去掉了机器味儿。”“随着AI生成图片的可用性大大提高,它的应用空间也随即打开了。比如在品牌宣传场景,以前拍这样一组海报动辄需要一二十万,甚至大几十万,但是现在创作的成本接近于0。简单说来,iRAG的商业价值体现在:无幻觉、超真实、没成本,立等可取。”
“在人类信息技术变革的不同历史时期,应用出现的样貌也不一样:在PC时期,它是一个个的软件和网站;在移动时期,它是一个个的APP和可被关注的账号;在AI时代,应用主要的形态就是智能体。随着大模型技术和能力的指数级跃迁,自然语言成为了这个时代最重要的编程语言。我们每一个人都能动手创造一个属于自己、也属于他人的AI应用,或者智能体。”“我是软件工程师出身,国外有一种说法叫‘软件吞噬世界’。但我认为,这个世界不应该被吞噬,而应该被创造。AI时代,应用创造世界。所以请大家和我一起见证,AI applications are creating the world。”本文由公众号IPO早知道(ID:ipozaozhidao)原创撰写,如需转载请联系C叔↓↓↓
“今天,文字层面的RAG已经做得很好了,但是图像等多模态内容和RAG的结合还不够。大家请看这张图,这是我们用一个开源模型生成的一张北京天坛的图片,看上去确实有点像天坛,但总觉得哪儿不对。告诉大家,真正的天坛长这样,是三层,但模型生成了四层,这是文生图比较典型的幻觉现象。这种幻觉现象,今天仍然很普遍,所以今天的多模态大模型,没有什么成规模的应用出来。就是幻觉没有解决,至少没有像文生文RAG解决得那么好。”“今年年初,我们决定要解决图像生成的幻觉问题。我们开发了一项颠覆性的技术叫做iRAG,就是image based RAG,检索增强的文生图技术。之前,完全基于大语言模型的文生图系统,生成的图片常常是“一眼假”,甚至是逻辑不合常理。百度的iRAG,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,就可以生成各种超真实的图片,整体效果远远超过文生图原生系统,去掉了机器味儿。”“随着AI生成图片的可用性大大提高,它的应用空间也随即打开了。比如在品牌宣传场景,以前拍这样一组海报动辄需要一二十万,甚至大几十万,但是现在创作的成本接近于0。简单说来,iRAG的商业价值体现在:无幻觉、超真实、没成本,立等可取。”
“在人类信息技术变革的不同历史时期,应用出现的样貌也不一样:在PC时期,它是一个个的软件和网站;在移动时期,它是一个个的APP和可被关注的账号;在AI时代,应用主要的形态就是智能体。随着大模型技术和能力的指数级跃迁,自然语言成为了这个时代最重要的编程语言。我们每一个人都能动手创造一个属于自己、也属于他人的AI应用,或者智能体。”“我是软件工程师出身,国外有一种说法叫‘软件吞噬世界’。但我认为,这个世界不应该被吞噬,而应该被创造。AI时代,应用创造世界。所以请大家和我一起见证,AI applications are creating the world。”本文由公众号IPO早知道(ID:ipozaozhidao)原创撰写,如需转载请联系C叔↓↓↓