2024年人工智能发展报告总结

管理智慧

2周前

AI模型的可靠性评估缺乏统一标准,生成式AI投资激增,AI提高了工作者的效率和质量,加速了科学和医疗的发展,美国AI相关条款发布数量急剧增加,全球对AI潜在影响的意识增强,紧张情绪上升。

第三期华夏基石数智时代领导力特训营开启报名!

来源 | 道上管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点,图片来源于pixabay

斯坦福大学教授李飞飞团队关于2024年人工智能发展报告总结。

01

核心信息

在2024年,人工智能(AI)领域取得了显著的进展,但也面临着挑战。

AI在特定任务上超越了人类,如图像分类和语言理解,但在更复杂的任务上仍有局限。

工业界在AI研究中发挥了主导作用,尤其在机器学习模型的产出上。

训练大型AI模型的成本不断上升,例如GPT-4花了约7800万美金的,Gimini花了约1.91亿美金。

美国、中国和欧洲是AI模型的主要贡献者,其中中国在AI专利方面领先。

AI模型的可靠性评估缺乏统一标准,生成式AI投资激增,AI提高了工作者的效率和质量,加速了科学和医疗的发展,美国AI相关条款发布数量急剧增加,全球对AI潜在影响的意识增强,紧张情绪上升。

02

AI研究和发展

2.1 核心要点

AI研究继续由工业界主导,公开源码的模型数量增加,训练成本上升,美国、中国和欧洲在AI大模型发展上占主导地位。中国在AI专利方面占据领先地位,GitHub上的AI研究资源和相关论文发表数量持续增长。

2.2 核心对比信息

从2010年到2022年,AI相关的论文发表数量逐年增加,美国在发布优秀的机器学习模型数量上保持世界首位。

2.3 模型是否会用尽数据

AI模型的发展依赖于大量数据,但有担忧表示,计算机科学家可能很快就会用尽高质量数据。尽管合成数据可以缓解这一问题,但使用合成数据训练的模型可能会出现性能下降。

2.4 基础模型发展

基础模型在广泛的数据集上训练,具有多功能性,并适用于许多下游应用。这些模型在实际场景中的部署越来越多,不同国家和组织在基础模型的发布数量上有所不同。

2.5 训练模型成本

训练大型AI模型的成本不断上升,达到数千万美元甚至数亿美元。这表明了AI领域在资源投入方面的增长。

03

技术性能

3.1 核心要点

AI在特定任务上超越了人类,多模态AI模型的出现,如Google的Gemini和OpenAI的GPT-4,展示了处理图像和文本信息的能力。新的benchmarks评估集的出现,如SWE-bench和HEIM,以及人类评估的引入,如聊天机器人竞技场排行榜,反映了AI技术性能的提升。

3.2 重要模型发布情况

2023年见证了多个重要AI模型的发布,包括Anthropic的Claude、OpenAI的GPT-4、Stability AI的Stable Diffusion v2等,这些模型在多项benchmarks中超越了人类水平。

3.3 AI表现情况

AI在图像分类、英语理解和自然语言推理等任务中超越了人类,但在竞赛数学、多语言理解和视觉常识推理等任务上仍有局限。

3.4 多学科、高难度评估集 (MMMU GPQA ARC)

新的评估集如MMMU、GPQA和ARC的出现,旨在评估AI的多学科推理能力和抽象归纳能力。尽管AI模型在这些评估中取得了一定的成绩,但与人类专家相比仍有差距。

3.5 Agents

基于大型语言模型的AI代理在特定场景中自动处理任务的能力得到了提升,如AgentBench评估的基于LLM的25个agents。

3.6 RLHF RLAIF

RLHF和RLAIF是两种基于强化学习的方法,用于训练AI模型以更好地符合人类的偏好和反馈。RLAIF在生成无害对话任务中表现优于RLHF。

3.7 LLM随着时间迭代效果对比

随着时间的推移,LLM的效果有所变化。一些研究表明,随着新数据和用户反馈的加入,某些任务的效果可能出现下降。

3.8 提升LLM效果的技巧

包括prompting、OPRO和fine-tuning在内的多种技术被用来提升LLM的效果。这些技术通过不同的方法优化模型性能,如通过自然语言描述任务或减少内存需求。

3.9 训练AI系统对环境的影响

训练大型AI模型消耗大量资源并释放二氧化碳,对环境造成影响。尽管如此,AI系统也可以用于预测城市空气质量和优化能源使用,从而对环境产生积极影响。

04

AI可靠性

AI的可靠性评估涉及隐私、数据治理、透明性和可解释性、安全性和公平性等多个方面。目前,对LLM的全面标准评估存在缺陷,政治伪造内容的产生和检测成为一个问题,ChatGPT在政治上的偏见也引起了关注。

4.1 AI可靠性定义

AI的可靠性从数据治理、可解释性、公平性、隐私、安全性和透明性等多个维度进行定义和评估。

05

AI对经济的影响

AI对经济的影响是多方面的,包括提高生产效率、改变工作市场和投资趋势。生成式AI的投资增长迅速,AI相关工作职位数量减少,但AI降低了企业支出并提升了收益。中国在工业机器人领域占据主导地位,AI提高了工作者的产能和效率。《财富》500强公司越来越多地讨论人工智能,特别是生成式AI。

5.1 AI重大新闻

2023年,AI领域发生了多项重大新闻,包括BioNTech收购AI公司InstaDeep、微软对OpenAI的投资、GitHub Copilot的发布、Einstein GPT和微软Office的融合、Bloomberg使用LLM进行金融数据分析等。

5.2 工作信息

AI相关工作在工作市场占比有所变化,美国AI工作技能的需求有所下降,但香港对AI人才的需求相对较高。全球新兴成立的AI公司数量持续增加。

5.3 开发者对AI工具使用情况

开发者对AI工具的使用情况显示,GitHub Copilot和ChatGPT的使用量最高,云服务平台的使用也相当普遍。

6、AI在医疗与教育的进展

AI在医疗和教育领域的应用取得了显著进展。AI加快了科技进步,如AlphaDev和GNoME的应用。在医疗领域,AI系统如EVEscape和AlphaMissence的发布提高了疾病预测和基因分类的效率。FDA批准的AI相关医疗设备数量增加,国际上人工智能相关的学位课程也在迅速增加。

7、公众对AI的观点

公众对AI的潜在影响越来越关注,紧张情绪上升。西方国家对AI的情绪虽然低迷,但正在逐渐改善。公众对AI的经济影响持悲观态度,但ChatGPT已经被广泛认知和使用。不同国家对ChatGPT的态度普遍积极,GPT-4在大模型发布后吸引了大量公众注意力。

END

为了帮助更多企业家深入了解AI及其在降本增效中的应用,实现卓越绩效,欢迎扫码添加助教老师加入我们的社群!与更多企业家朋友共同把握AI新时代,在线和线下进行更多交流,共同探索未来机遇!

(扫码请备注”AI进群“,谢谢)

喜欢这篇文章

请为我点赞和在看

AI模型的可靠性评估缺乏统一标准,生成式AI投资激增,AI提高了工作者的效率和质量,加速了科学和医疗的发展,美国AI相关条款发布数量急剧增加,全球对AI潜在影响的意识增强,紧张情绪上升。

第三期华夏基石数智时代领导力特训营开启报名!

来源 | 道上管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点,图片来源于pixabay

斯坦福大学教授李飞飞团队关于2024年人工智能发展报告总结。

01

核心信息

在2024年,人工智能(AI)领域取得了显著的进展,但也面临着挑战。

AI在特定任务上超越了人类,如图像分类和语言理解,但在更复杂的任务上仍有局限。

工业界在AI研究中发挥了主导作用,尤其在机器学习模型的产出上。

训练大型AI模型的成本不断上升,例如GPT-4花了约7800万美金的,Gimini花了约1.91亿美金。

美国、中国和欧洲是AI模型的主要贡献者,其中中国在AI专利方面领先。

AI模型的可靠性评估缺乏统一标准,生成式AI投资激增,AI提高了工作者的效率和质量,加速了科学和医疗的发展,美国AI相关条款发布数量急剧增加,全球对AI潜在影响的意识增强,紧张情绪上升。

02

AI研究和发展

2.1 核心要点

AI研究继续由工业界主导,公开源码的模型数量增加,训练成本上升,美国、中国和欧洲在AI大模型发展上占主导地位。中国在AI专利方面占据领先地位,GitHub上的AI研究资源和相关论文发表数量持续增长。

2.2 核心对比信息

从2010年到2022年,AI相关的论文发表数量逐年增加,美国在发布优秀的机器学习模型数量上保持世界首位。

2.3 模型是否会用尽数据

AI模型的发展依赖于大量数据,但有担忧表示,计算机科学家可能很快就会用尽高质量数据。尽管合成数据可以缓解这一问题,但使用合成数据训练的模型可能会出现性能下降。

2.4 基础模型发展

基础模型在广泛的数据集上训练,具有多功能性,并适用于许多下游应用。这些模型在实际场景中的部署越来越多,不同国家和组织在基础模型的发布数量上有所不同。

2.5 训练模型成本

训练大型AI模型的成本不断上升,达到数千万美元甚至数亿美元。这表明了AI领域在资源投入方面的增长。

03

技术性能

3.1 核心要点

AI在特定任务上超越了人类,多模态AI模型的出现,如Google的Gemini和OpenAI的GPT-4,展示了处理图像和文本信息的能力。新的benchmarks评估集的出现,如SWE-bench和HEIM,以及人类评估的引入,如聊天机器人竞技场排行榜,反映了AI技术性能的提升。

3.2 重要模型发布情况

2023年见证了多个重要AI模型的发布,包括Anthropic的Claude、OpenAI的GPT-4、Stability AI的Stable Diffusion v2等,这些模型在多项benchmarks中超越了人类水平。

3.3 AI表现情况

AI在图像分类、英语理解和自然语言推理等任务中超越了人类,但在竞赛数学、多语言理解和视觉常识推理等任务上仍有局限。

3.4 多学科、高难度评估集 (MMMU GPQA ARC)

新的评估集如MMMU、GPQA和ARC的出现,旨在评估AI的多学科推理能力和抽象归纳能力。尽管AI模型在这些评估中取得了一定的成绩,但与人类专家相比仍有差距。

3.5 Agents

基于大型语言模型的AI代理在特定场景中自动处理任务的能力得到了提升,如AgentBench评估的基于LLM的25个agents。

3.6 RLHF RLAIF

RLHF和RLAIF是两种基于强化学习的方法,用于训练AI模型以更好地符合人类的偏好和反馈。RLAIF在生成无害对话任务中表现优于RLHF。

3.7 LLM随着时间迭代效果对比

随着时间的推移,LLM的效果有所变化。一些研究表明,随着新数据和用户反馈的加入,某些任务的效果可能出现下降。

3.8 提升LLM效果的技巧

包括prompting、OPRO和fine-tuning在内的多种技术被用来提升LLM的效果。这些技术通过不同的方法优化模型性能,如通过自然语言描述任务或减少内存需求。

3.9 训练AI系统对环境的影响

训练大型AI模型消耗大量资源并释放二氧化碳,对环境造成影响。尽管如此,AI系统也可以用于预测城市空气质量和优化能源使用,从而对环境产生积极影响。

04

AI可靠性

AI的可靠性评估涉及隐私、数据治理、透明性和可解释性、安全性和公平性等多个方面。目前,对LLM的全面标准评估存在缺陷,政治伪造内容的产生和检测成为一个问题,ChatGPT在政治上的偏见也引起了关注。

4.1 AI可靠性定义

AI的可靠性从数据治理、可解释性、公平性、隐私、安全性和透明性等多个维度进行定义和评估。

05

AI对经济的影响

AI对经济的影响是多方面的,包括提高生产效率、改变工作市场和投资趋势。生成式AI的投资增长迅速,AI相关工作职位数量减少,但AI降低了企业支出并提升了收益。中国在工业机器人领域占据主导地位,AI提高了工作者的产能和效率。《财富》500强公司越来越多地讨论人工智能,特别是生成式AI。

5.1 AI重大新闻

2023年,AI领域发生了多项重大新闻,包括BioNTech收购AI公司InstaDeep、微软对OpenAI的投资、GitHub Copilot的发布、Einstein GPT和微软Office的融合、Bloomberg使用LLM进行金融数据分析等。

5.2 工作信息

AI相关工作在工作市场占比有所变化,美国AI工作技能的需求有所下降,但香港对AI人才的需求相对较高。全球新兴成立的AI公司数量持续增加。

5.3 开发者对AI工具使用情况

开发者对AI工具的使用情况显示,GitHub Copilot和ChatGPT的使用量最高,云服务平台的使用也相当普遍。

6、AI在医疗与教育的进展

AI在医疗和教育领域的应用取得了显著进展。AI加快了科技进步,如AlphaDev和GNoME的应用。在医疗领域,AI系统如EVEscape和AlphaMissence的发布提高了疾病预测和基因分类的效率。FDA批准的AI相关医疗设备数量增加,国际上人工智能相关的学位课程也在迅速增加。

7、公众对AI的观点

公众对AI的潜在影响越来越关注,紧张情绪上升。西方国家对AI的情绪虽然低迷,但正在逐渐改善。公众对AI的经济影响持悲观态度,但ChatGPT已经被广泛认知和使用。不同国家对ChatGPT的态度普遍积极,GPT-4在大模型发布后吸引了大量公众注意力。

END

为了帮助更多企业家深入了解AI及其在降本增效中的应用,实现卓越绩效,欢迎扫码添加助教老师加入我们的社群!与更多企业家朋友共同把握AI新时代,在线和线下进行更多交流,共同探索未来机遇!

(扫码请备注”AI进群“,谢谢)

喜欢这篇文章

请为我点赞和在看

展开
打开“财经头条”阅读更多精彩资讯
最新评论

参与讨论

APP内打开