人工智能侧重英语,使许多国家处于不利地位

财富FORTUNE

1周前

高性能语言技术项目的目标是交付人工智能模型,但随后OpenAI的ChatGPT改变了人工智能领域的格局,于是组织者转向创建一个可用于训练多语言模型的高质量数据集。

图片来源:Jakub Porzycki—NurPhoto/Getty Images

欧洲一项雄心勃勃的新人工智能项目已初具规模,该项目旨在开发支持该地区24种官方语言及更多语言的开源人工智能模型,并力求遵守其繁杂的数字立法。
OpenEuroLLM项目于本月初启动,预算仅为3740万欧元(约合3860万美元):与其他人工智能相关项目[如美国星际之门人工智能基础设施项目(Stargate AI infrastructure project)首期投入1000亿美元]相比,这一预算显得微不足道。尽管参与该项目的公司,如德国的Aleph Alpha和芬兰的Silo AI等,也投入了等值的研究人员时间,但项目资金的主要来源仍是欧盟委员会。
欧盟资助的项目通常进展缓慢,而该项目制定了为期三年的路线图,但该行业目前每月都在经历重大变革。不过,组织者和参与者向《财富》杂志表示,有望在一年内交付一个中间成果模型,而且为此付出的努力是值得的。

说方言

Aleph Alpha首席研究官亚瑟·贾迪迪(Yasser Jadidi)指出:“大多数享有全球知名度的模型开发工作都侧重于英语。这是由于绝大多数可获取且可访问的互联网文本数据都是英文的,这使得其他语言处于不利地位。”
对于瑞典或土耳其(OpenEuroLLM项目还针对已申请加入欧盟的八个国家的语言,因此该项目总共涵盖32种语言)等地的民众而言,缺乏能够理解其语言复杂性的人工智能模型无疑构成了一个严峻的挑战。首要问题在于,这加大了当地企业和公共机构采纳该技术并开始提供新服务的难度。
欧洲最大的私人人工智能实验室Silo AI(该实验室去年被AMD收购,目前正在参与OpenEuroLLM项目)的首席执行官彼得·萨林(Peter Sarlin)表示:"这首先是一个商业问题。无论是阿尔巴尼亚语、芬兰语、瑞典语还是其他语言,是否存在能够在特定的低资源语言中表现出色的模型,从而使该地区的公司能够最终以此为基础构建服务?”
贾迪迪表示,这一问题还对本地语境中人工智能模型的准确性和安全性的评估工作产生了影响。事实上,Aleph Alpha在该项目中的主要作用是提供人工智能模型评估基准(而这套基准并非简单地从英语版本进行机器翻译得来,因为大多数现有的人工智能模型评估基准都沿用了这一做法。)
OpenEuroLLM项目的资金可能相对较少,但它并非从零开始。
该项目的大多数参与者此前已参与过一个名为高性能语言技术(HPLT)的独立项目,该项目于两年前启动,预算仅为600万欧元。起初,高性能语言技术项目的目标是交付人工智能模型,但随后OpenAI的ChatGPT改变了人工智能领域的格局,于是组织者转向创建一个可用于训练多语言模型的高质量数据集。目前,高性能语言技术数据集正处于“清理”错误信息阶段,将成为OpenEuroLLM工作的基础。
OpenEuroLLM将创建一个基于所有欧洲语言数据集训练的基础模型。一旦该基础模型完成开发,另一个由欧盟资助的名为LLMs4EU的项目将对其进行微调以用于各种应用程序。除了提供资金支持外,欧盟还为所有这些项目提供了算力资源。

遵守规则

对于人工智能公司而言,在欧洲开展业务并非易事。除了逐步生效的《人工智能法案》(AI Act)对模型提供商及其客户施加的一系列报告责任之外,还要考虑版权法和竞争法,以及《通用数据保护条例》(GDPR,该条例对人工智能公司可使用的个人数据设定了严格限制)。
这些法律对欧洲人工智能的发展产生了实质性影响,Meta因《通用数据保护条例》的限制而推迟了Meta AI的推出,苹果(Apple)也因未指明的反垄断问题而推迟了Apple Intelligence的部署。(Apple Intelligence将于4月以有限的形式在欧盟地区的iPhone上推出,而Meta已开始向欧洲智能眼镜佩戴者提供部分Meta AI功能。)
就OpenEuroLLM的组织者而言,这些法律挑战是可以克服的。与萨林共同领导该项目的捷克查理大学的扬·哈吉奇(Jan Hajič)说:"我们相信,我们能够遵守所有这些法律规定。”
哈吉奇表示,参与者在开发高性能语言技术数据集时已经解决了版权问题和大部分隐私问题。“《通用数据保护条例》可能构成一定的挑战,但我们正试图通过数据假名化来解决这一问题,也就是说,如果遇到人名,会将其进行删除处理。”他说,同时承认这一过程中必要的自动化可能无法保证达到百分之百的成功率。
哈吉奇表示:“我们的宗旨是确保所有行动都不会与欧洲法规产生任何冲突。”他还补充说,这可能会吸引那些意图开拓欧盟市场的公司。对于那些在《人工智能法案》框架下需要向欧盟当局提交大量报告的高风险用例而言,开源方法将因其所提供的透明度而变得至关重要。
OpenEuroLLM项目有20个参与者,包括企业、研究机构和芬兰Lumi等高性能计算集群。这样的组合可能被视为一种负担,甚至可能引发优先级上的分歧,但Aleph Alpha的贾迪迪认为,开源项目通常涉及众多的参与者,但这并不意味着项目会因此受到拖累。
他说:"我们完全有机会确保众多的贡献者不是阻碍,反而会带来机遇。”(财富中文网)
译者:中慧言-王芳
在财富Plus,网友们对这篇文章发表了许多有深度和思想的观点。一起来看看吧。也欢迎你加入我们,谈谈你的想法。今日其他热议话题:
查看《蔡崇信确认阿里与苹果合作》的精彩观点
查看《文心一言宣布4月1日起全面免费》的精彩观点
推荐阅读

高性能语言技术项目的目标是交付人工智能模型,但随后OpenAI的ChatGPT改变了人工智能领域的格局,于是组织者转向创建一个可用于训练多语言模型的高质量数据集。

图片来源:Jakub Porzycki—NurPhoto/Getty Images

欧洲一项雄心勃勃的新人工智能项目已初具规模,该项目旨在开发支持该地区24种官方语言及更多语言的开源人工智能模型,并力求遵守其繁杂的数字立法。
OpenEuroLLM项目于本月初启动,预算仅为3740万欧元(约合3860万美元):与其他人工智能相关项目[如美国星际之门人工智能基础设施项目(Stargate AI infrastructure project)首期投入1000亿美元]相比,这一预算显得微不足道。尽管参与该项目的公司,如德国的Aleph Alpha和芬兰的Silo AI等,也投入了等值的研究人员时间,但项目资金的主要来源仍是欧盟委员会。
欧盟资助的项目通常进展缓慢,而该项目制定了为期三年的路线图,但该行业目前每月都在经历重大变革。不过,组织者和参与者向《财富》杂志表示,有望在一年内交付一个中间成果模型,而且为此付出的努力是值得的。

说方言

Aleph Alpha首席研究官亚瑟·贾迪迪(Yasser Jadidi)指出:“大多数享有全球知名度的模型开发工作都侧重于英语。这是由于绝大多数可获取且可访问的互联网文本数据都是英文的,这使得其他语言处于不利地位。”
对于瑞典或土耳其(OpenEuroLLM项目还针对已申请加入欧盟的八个国家的语言,因此该项目总共涵盖32种语言)等地的民众而言,缺乏能够理解其语言复杂性的人工智能模型无疑构成了一个严峻的挑战。首要问题在于,这加大了当地企业和公共机构采纳该技术并开始提供新服务的难度。
欧洲最大的私人人工智能实验室Silo AI(该实验室去年被AMD收购,目前正在参与OpenEuroLLM项目)的首席执行官彼得·萨林(Peter Sarlin)表示:"这首先是一个商业问题。无论是阿尔巴尼亚语、芬兰语、瑞典语还是其他语言,是否存在能够在特定的低资源语言中表现出色的模型,从而使该地区的公司能够最终以此为基础构建服务?”
贾迪迪表示,这一问题还对本地语境中人工智能模型的准确性和安全性的评估工作产生了影响。事实上,Aleph Alpha在该项目中的主要作用是提供人工智能模型评估基准(而这套基准并非简单地从英语版本进行机器翻译得来,因为大多数现有的人工智能模型评估基准都沿用了这一做法。)
OpenEuroLLM项目的资金可能相对较少,但它并非从零开始。
该项目的大多数参与者此前已参与过一个名为高性能语言技术(HPLT)的独立项目,该项目于两年前启动,预算仅为600万欧元。起初,高性能语言技术项目的目标是交付人工智能模型,但随后OpenAI的ChatGPT改变了人工智能领域的格局,于是组织者转向创建一个可用于训练多语言模型的高质量数据集。目前,高性能语言技术数据集正处于“清理”错误信息阶段,将成为OpenEuroLLM工作的基础。
OpenEuroLLM将创建一个基于所有欧洲语言数据集训练的基础模型。一旦该基础模型完成开发,另一个由欧盟资助的名为LLMs4EU的项目将对其进行微调以用于各种应用程序。除了提供资金支持外,欧盟还为所有这些项目提供了算力资源。

遵守规则

对于人工智能公司而言,在欧洲开展业务并非易事。除了逐步生效的《人工智能法案》(AI Act)对模型提供商及其客户施加的一系列报告责任之外,还要考虑版权法和竞争法,以及《通用数据保护条例》(GDPR,该条例对人工智能公司可使用的个人数据设定了严格限制)。
这些法律对欧洲人工智能的发展产生了实质性影响,Meta因《通用数据保护条例》的限制而推迟了Meta AI的推出,苹果(Apple)也因未指明的反垄断问题而推迟了Apple Intelligence的部署。(Apple Intelligence将于4月以有限的形式在欧盟地区的iPhone上推出,而Meta已开始向欧洲智能眼镜佩戴者提供部分Meta AI功能。)
就OpenEuroLLM的组织者而言,这些法律挑战是可以克服的。与萨林共同领导该项目的捷克查理大学的扬·哈吉奇(Jan Hajič)说:"我们相信,我们能够遵守所有这些法律规定。”
哈吉奇表示,参与者在开发高性能语言技术数据集时已经解决了版权问题和大部分隐私问题。“《通用数据保护条例》可能构成一定的挑战,但我们正试图通过数据假名化来解决这一问题,也就是说,如果遇到人名,会将其进行删除处理。”他说,同时承认这一过程中必要的自动化可能无法保证达到百分之百的成功率。
哈吉奇表示:“我们的宗旨是确保所有行动都不会与欧洲法规产生任何冲突。”他还补充说,这可能会吸引那些意图开拓欧盟市场的公司。对于那些在《人工智能法案》框架下需要向欧盟当局提交大量报告的高风险用例而言,开源方法将因其所提供的透明度而变得至关重要。
OpenEuroLLM项目有20个参与者,包括企业、研究机构和芬兰Lumi等高性能计算集群。这样的组合可能被视为一种负担,甚至可能引发优先级上的分歧,但Aleph Alpha的贾迪迪认为,开源项目通常涉及众多的参与者,但这并不意味着项目会因此受到拖累。
他说:"我们完全有机会确保众多的贡献者不是阻碍,反而会带来机遇。”(财富中文网)
译者:中慧言-王芳
在财富Plus,网友们对这篇文章发表了许多有深度和思想的观点。一起来看看吧。也欢迎你加入我们,谈谈你的想法。今日其他热议话题:
查看《蔡崇信确认阿里与苹果合作》的精彩观点
查看《文心一言宣布4月1日起全面免费》的精彩观点
推荐阅读

展开
打开“财经头条”阅读更多精彩资讯
APP内打开