图片来源:Jakub Porzycki—NurPhoto/Getty Images
说方言
Aleph Alpha首席研究官亚瑟·贾迪迪(Yasser Jadidi)指出:“大多数享有全球知名度的模型开发工作都侧重于英语。这是由于绝大多数可获取且可访问的互联网文本数据都是英文的,这使得其他语言处于不利地位。”
对于瑞典或土耳其(OpenEuroLLM项目还针对已申请加入欧盟的八个国家的语言,因此该项目总共涵盖32种语言)等地的民众而言,缺乏能够理解其语言复杂性的人工智能模型无疑构成了一个严峻的挑战。首要问题在于,这加大了当地企业和公共机构采纳该技术并开始提供新服务的难度。
欧洲最大的私人人工智能实验室Silo AI(该实验室去年被AMD收购,目前正在参与OpenEuroLLM项目)的首席执行官彼得·萨林(Peter Sarlin)表示:"这首先是一个商业问题。无论是阿尔巴尼亚语、芬兰语、瑞典语还是其他语言,是否存在能够在特定的低资源语言中表现出色的模型,从而使该地区的公司能够最终以此为基础构建服务?”
贾迪迪表示,这一问题还对本地语境中人工智能模型的准确性和安全性的评估工作产生了影响。事实上,Aleph Alpha在该项目中的主要作用是提供人工智能模型评估基准(而这套基准并非简单地从英语版本进行机器翻译得来,因为大多数现有的人工智能模型评估基准都沿用了这一做法。)
OpenEuroLLM项目的资金可能相对较少,但它并非从零开始。
该项目的大多数参与者此前已参与过一个名为高性能语言技术(HPLT)的独立项目,该项目于两年前启动,预算仅为600万欧元。起初,高性能语言技术项目的目标是交付人工智能模型,但随后OpenAI的ChatGPT改变了人工智能领域的格局,于是组织者转向创建一个可用于训练多语言模型的高质量数据集。目前,高性能语言技术数据集正处于“清理”错误信息阶段,将成为OpenEuroLLM工作的基础。
OpenEuroLLM将创建一个基于所有欧洲语言数据集训练的基础模型。一旦该基础模型完成开发,另一个由欧盟资助的名为LLMs4EU的项目将对其进行微调以用于各种应用程序。除了提供资金支持外,欧盟还为所有这些项目提供了算力资源。
遵守规则
图片来源:Jakub Porzycki—NurPhoto/Getty Images
说方言
Aleph Alpha首席研究官亚瑟·贾迪迪(Yasser Jadidi)指出:“大多数享有全球知名度的模型开发工作都侧重于英语。这是由于绝大多数可获取且可访问的互联网文本数据都是英文的,这使得其他语言处于不利地位。”
对于瑞典或土耳其(OpenEuroLLM项目还针对已申请加入欧盟的八个国家的语言,因此该项目总共涵盖32种语言)等地的民众而言,缺乏能够理解其语言复杂性的人工智能模型无疑构成了一个严峻的挑战。首要问题在于,这加大了当地企业和公共机构采纳该技术并开始提供新服务的难度。
欧洲最大的私人人工智能实验室Silo AI(该实验室去年被AMD收购,目前正在参与OpenEuroLLM项目)的首席执行官彼得·萨林(Peter Sarlin)表示:"这首先是一个商业问题。无论是阿尔巴尼亚语、芬兰语、瑞典语还是其他语言,是否存在能够在特定的低资源语言中表现出色的模型,从而使该地区的公司能够最终以此为基础构建服务?”
贾迪迪表示,这一问题还对本地语境中人工智能模型的准确性和安全性的评估工作产生了影响。事实上,Aleph Alpha在该项目中的主要作用是提供人工智能模型评估基准(而这套基准并非简单地从英语版本进行机器翻译得来,因为大多数现有的人工智能模型评估基准都沿用了这一做法。)
OpenEuroLLM项目的资金可能相对较少,但它并非从零开始。
该项目的大多数参与者此前已参与过一个名为高性能语言技术(HPLT)的独立项目,该项目于两年前启动,预算仅为600万欧元。起初,高性能语言技术项目的目标是交付人工智能模型,但随后OpenAI的ChatGPT改变了人工智能领域的格局,于是组织者转向创建一个可用于训练多语言模型的高质量数据集。目前,高性能语言技术数据集正处于“清理”错误信息阶段,将成为OpenEuroLLM工作的基础。
OpenEuroLLM将创建一个基于所有欧洲语言数据集训练的基础模型。一旦该基础模型完成开发,另一个由欧盟资助的名为LLMs4EU的项目将对其进行微调以用于各种应用程序。除了提供资金支持外,欧盟还为所有这些项目提供了算力资源。
遵守规则