17万画作诞生背后：数字人会梦见毕加索吗？

财经头条

1年前

诞生于2019年，“年仅”三岁的百度数字人度晓晓，是百度人工智能技术落地的重要场景。如今，她也不仅扮演一个助手角色，在不断丰富完善的数据库、持续迭代的技术支持下，开始“自主”生产内容，也就是AIGC （AI generated content）。

星空、沙漠、孤岛，自然、虚拟、火星，人类会如何理解这些意象，又会如何落笔，将文字幻化为画？依据不同作者的“人格”，答案往往各不相同。

今年夏天，一个短红发“少女”初出茅庐创作的四幅画作，在24小时内卖出超17万元的高价，还得到了美院教授“达到本科美术毕业生的基本要求”的高评价。

只是这个少女，并非人类。

度晓晓的“无界”系列画作在西安美术学院展出

左图：《宇宙无界》右图：《自然无界》

“未来十年，AIGC将颠覆现有内容生产模式。可以实现以十分之一的成本，以百倍千倍的生产速度，去生成AI原创内容。”7月21日，百度公司创始人、董事长兼首席执行官李彦宏在大会上说。

过去二十年，互联网快速发展下，内容生产门槛降低、平台开放程度增加，“去中心”的生产模式下，内容不再仅掌握在少数组织手中，普通人也能自我展露，创作，生产出的内容数以千亿，海量UGC、PUGC内容涌向人群。

如果未来世界中，AI可以拥有“人格”，他们又能在内容创作中做到什么？又是如何做到的？

家有“女儿”初长成

可以说，“度晓晓”就是百度AI的“亲女儿”，她坐拥了百度几乎全部的先进资源，也是百度AI在搜索场景下的重要落地案例。其也呈现了一种搜索进化的可能性。

1990 年，第一个互联网搜索引擎出现。这期间，搜索框从电脑走进手机等智能设备，一直没变的，是搜索形态：输入问题，好奇就能变成答案。

2011 年，苹果 Siri 让搜索有了新形态：语音。这将人类提问方式从文字扩延开来。从微软 Cortant、谷歌 Assistant、亚马逊 Alexa，再到百度小度、小米小爱、天猫精灵，搜索“进化”成了人类的生活助理。

而度晓晓的“出世”，更是搜索功能的一次巨大飞跃。

在AI交互技术加持下，幻化为“搜索助手”的AI数字人，有了可视化的外表和更接近人类习惯的语言表达。冷冰冰的答案，也变得趣味起来。

更为关键的是，在技术的迭代发展下，度晓晓的“学习能力”呈指数级增长。

今年6月初，度晓晓创作的四款画作被制作为数字藏品，在百度App上线售卖。作为国内首个数字人创作的艺术数字藏品，该系列画作24小时售卖额就超过17万元。

这已经不是她第一次在大众面前展现AIGC能力了，在刚刚过去的高考，度晓晓作答了全国新高考Ⅰ卷题为《本手、妙手、俗手》的议论文，被专家评定为水平超过75％的考生。

7月8日，度晓晓再战上海高考，直播写英语作文，这考验了她对多种语言的理解和生成。

在直播中，除了英语之外，度晓晓在现场还一口气生成了韩语、法语等多个语种的作文，这背后都是百度飞桨文心大模型提供的技术支持。

据百度相关技术人员透露，度晓晓除了使用百度最新推出的文心ERNIE 3.0 Zeus千亿大模型，还使用了一种可以理解超过上百种语言的多语言大模型ERNIE-M。也就是说，在文心大模型的支撑下，度晓晓不仅能够写出立意明确、引经据典的高分中文作文，还能够快速生成超过100多种语言的优质内容。

度晓晓的「无界」系列画作采用的正是文心大模型跨模态图文生成大模型 ERNIE-ViLG，它构建了包含 1.45 亿高质量中文文本 - 图像对的大规模跨模态对齐数据集，而且基于飞桨平台在该数据集上训练了百亿参数模型。

这样看来，“百国语言能力者”度晓晓，算得上是父母口中“别人家的孩子”。

“女儿”背后的模型

度晓晓体现出来的类似于“人格”的特征，离不开百度飞桨（PaddlePaddle）的文心大模型提供的底层技术支持。

更复杂一点看，度晓晓整合了多模态交互技术、3D数字人建模、机器翻译、语音识别、自然语言理解等多项技术，可以在“汲取”海量数据后，听懂语言，看懂图片、视频，并能根据文字，自主“创作”。

那么，度晓晓的绘画“灵感”到底来源于哪儿呢？它的创作过程又是怎样的？

首先，AI从海量图文对应的数据中学习到了“语言描述”与“艺术画面”的关联，但每一个关键字后，对应的绘画风格不同。比如“山峰”，可以是中国画中的壁立千仞，也可以是油画中的威严庄重，也可能在科幻设定图中是光怪陆离、霓虹闪烁的都市幻影背景。

当有人输入一段语言描述，AI将会调动海量数据，以“随机化”的起点开始，经过数百轮不断更新、修正画作，一点点填轮廓、上彩色。

每一轮，AI都会仔细检查草稿与语言描述的一致性，让作品与输入的语言描述有正确的关联。在整体修正的过程中，构图不断明晰，模糊、噪点的部分不断被更精确的配色和轮廓代替，最终形成在审美上与人类经验与知识高度一致的成品。

度晓晓“创作”的西安大雁塔

对于AI而言，“风格”，是一种从海量数据中学习到的知识。也就是说，AI是学习人类画作的过程中，通过比对来逐步了解哪些是油画、哪些是中国画的。通过“拆解”不同的风格，AI将学习到各类的构图、配色、轮廓和对各种物体的不同描绘方式。

AI的“创作力”，本质上是一种“随机性”生成。就像人类将不同风格的绘画杂糅、创建新的画派，AI可以学习一千种人类绘制月亮的方式，并借助随机性的“意外”得到第一千零一种。而这种“意外”也就近似人类创作过程中所拥有的“作者性”。

人类常说“由画观情”，也就是从一副画作中识别出作画人的情绪和性格。那么，AI能做到吗？

“技术上，可以实现，但并不容易。人类对思想和情绪的表达，有时是含蓄和微妙的，一个微小的眼神和动作、一个衣服上丢失的纽扣、一缕山间微风吹起的落叶……这些是AI还很难精确呈现的细节，也是AI未来理解人类的更高目标。”百度相关技术人员向《财经天下》周刊介绍。

但通过学习大规模高质量的文本-图像对数据，文心ERNIE-ViLG模型建模了融入情感的文字描述与图像之间的语义对应关系，在给定特定情绪描述时，就能够在生成图像的过程中考虑图像中的元素、色调、动作、眼神、表情等方面，恰当的表达出AI的“情绪”。

2016年，百度打造了中国第一个自主研发、开源开放的产业级深度学习平台飞桨。基于飞桨，百度进一步攀登预训练大模型的技术高地，打造具备“知识增强”能力的文心大模型。

除了AIGC方向，目前文心大模型也已应用于百度信息流、智能音箱等互联网产品，同时在媒体、医疗、金融等行业都有实际落地场景。

例如，在媒体创意行业，文心大模型的理解和生成创作能力激发创意，能降低制作成本；在人力资源领域，文心大模型能“解放”HR手动分类，实现候选人信息智能分类，模型识别准确率达到99%；在医疗领域应用中，文心大模型将每份病历的检查时间，从30分钟缩短到了秒级别。

这种人工智能技术在千行百业中落地应用，都是在帮助人类从重复性、无意义劳作中解放出来。

数字人会梦见毕加索吗？

科学技术通常是以一个指数级曲线在发展，在普通人还未曾设想的领域，就已经悄然发生改变。

就在一个月前，谷歌研究员Blake Lemoine在与聊天机器人LaMDA对话时，相信“对方”所说，自己已经拥有“人格”，也就是独立意识。他递交了21页调查报告，试图说服高层。但上司驳回了他的说法，该研究员也被迫“带薪休假”（这一举动近些年普遍被视为解雇前奏）。

这个拥有博士学位、7年AI工作经验的研究员公开了自己的“发现”，引起轩然大波，但这一说法并未得到科技界认可。

虽然还没人能准确预判技术“奇点”何时到来，但不可否认的是，在如今的技术加持下，AI也能越来越像人类了。比如，用户可以将定制化声音输入到小度、百度地图等产品中，用自家小孩的声音叫起床、报天气、导航。

不只是服务型角色，现在，AI在情绪感知方面也在精进，比如高兴、生气、沮丧、伤心等，可以通过文本、语气分析感知到。据百度技术人员透露，百度目前“正负向”做得非常准，有7-8种正负向情感能明显感觉出来，每一项准确率能够达到90%以上。

事实是，AI基础性算法的核心本质，仍然是模拟人的大脑的决策过程，而非原创。但这并不妨碍AI能够在预训练大模型下，不断增加参数量、丰富体系结构，能减少需要的标注数据量，同时提升模型的泛化能力。

“百度文心大模型学习效率更高、学习能力更强，还能跨语言、跨模态学习。一旦跨过某个奇点，就能产生真正意义上的AI原创内容。”李彦宏在百度大会上说。

李彦宏介绍，AIGC将走过三个发展阶段：第一，“助手阶段”，用来辅助人类进行内容生产。第二，“协作阶段”，AIGC以虚实并存的虚拟人形态出现，人机共生。第三个阶段，“原创阶段”，AIGC将独立完成内容创作。而大模型技术的突破，正在加速这个发展趋势。

在技术“奇点”到来的那天前，持续滚动的技术模型，仍在日夜无休地“汲取”海量的人类知识。

数字人，不只是“工具人”

不得不承认，开年以来，虚拟人赛道的柴愈添愈热，也出现了一些困惑声音，虚拟人的前景在哪儿？除了担任企业“吉祥物”般的角色，还能有多少想象空间？

“现在的数字人行业，已经过了仅当‘亮点’的阶段，更多企业在追求它的真实价值，也就是由投入期逐步走向收益期，我们现在推出的一些标品，不仅能帮客户省钱，还能帮客户挣钱。”百度数字人与机器人业务负责人李士岩说。

目前，虚拟人赛道的需求争夺，除了要能提供语音、语义、视觉全链路服务，也到了竞争低成本运维和使用的阶段。

越来越多企业愿意让虚拟人做代言人

看到了直播领域的火热，百度智能云专门打造了一个数字人平台“曦灵”，要做无人值守，全年无休的超写实数字人直播平台。

据业内人士介绍，因为AI大模型具备了很强的通用能力，能够在零样本、少样本情况下在多种任务上取得较好效果，省去了在这些任务上训练单独模型的成本。也因此，数字人制作成本能从百万级别降低到万元级别，生产周期也从几个月，缩短到小时级别。

而且，数字人不仅能帮助真人解放重复性、空缺性的工作内容，还能解决一些闲时阶段、高并发的诉求。尤其是，像彩妆、美妆、假发和服装等垂类，更适合表现力强的数字人出镜。

就拿服装领域来说，数字化能从本质解决两个环节：第一，销售端不用有实物也能够售卖，有一定订单量再返给工厂做生产，缓解库存周转问题；第二，面料数字化，解决了面料几次打版打样的成本。据知情人士透露，百度将在今年Q3、Q4公布其与部分地方政府做产业链改造。

现在数字人的直播，最主要的应用场景是在闲时流量延长直播时长。真人主播卖服装，受制于场地、环境限制，只能单维度展现面料、个人穿着情况，但放置在一个数字空间，数个模特走秀、穿梭在各种虚拟背景下，全方位运镜，展现力更强。

“非常有机会在可预见的1-2年内能够做到数字人整个表现力和交互能力，可以无限制趋近于真人的水平。”李士岩说。

根据中商产业研究院预计，2022年中国电商直播市场规模将上升至15073亿元。商家往往要花费高昂的佣金雇佣头部主播，不同级别的主播佣金差距很大，从几百元到几十万都有。而数字人直播便可降低人、时间、空间的限制、无需真人主播、中控人员、复杂硬件支持，为商家降低30%以上的直播成本。

百度去年发布智能云曦灵数字人平台，核心就是要解决行业里数字人应用周期长、成本高的问题。降低成本，就是搭建一个安装即用、门槛极低的标准化产品。

在此前AI财经社&《财经天下》周刊联合发起的数字人综合能力评估中，依据底层技术、产品形态、交付效率、落地案例等维度评判，百度智能云曦灵平台也达到了综合能力第一的结果。

今年4月，百度发布了手语平台，甚至都不用下载，访问一个网页就可以使用。7月，百度发布的是直播平台，将直播赛道再做成标准化的产品。据百度方面透露，2022年末，曦灵平台会有一次大的迭代。

未来，小微、中型企业甚至都不需要一个运营团队，一个具有基础技能应用人员，下载一个软件就可以帮企业做企业营销运营。虚拟主持人、虚拟主播、虚拟偶像、虚拟员工、虚拟二分身等等赛道，百度都会逐步推出标准化产品。

“人的创造力是AI短期内无法完全100%取代的，但是AI的优势在于耐久度与并发性，可以同时个性化与每个用户回答问题，耐久度可以全天7×24小时，这是真人做不到的。” 李士岩说。

而像度晓晓这样具备AIGC生产能力的数字人，在数据模型的飞轮支持下，未来能做到的事情会更多。