硅谷科学家:为什么预测式AI永远无法成功

暗涌Waves

1周前

但在一个案例中,一位75岁的老人被评估为可以在17天内出院,所以尽管她此时仍无法独立行走,但根据人工智能的评估结果,还是被赶出了医院。...很多心理学实验都证明了这点,我们甚至会幻想自己可以预测那些事实上是随机出现的事物。

徐牧心

19世纪末,一种名为蛇油的保健品在美国出现,号称自己包治百病,延年益寿,因此风靡一时。
这种所谓神药,在中国也有本土化的版本。电影《钢的琴》中就有这样一句台词,形容假药贩子的行径:两斤炉果(一种东北饼干)兑一片扑热息痛,用破胶囊壳子装起来。撑不死人,也药不死人。
而今,两位硅谷计算机科学家,Arvind Narayanan和Sayash Kapoor认为当代人工智能领域,正充斥着大量蛇油假药。而这不仅仅是硅谷的问题,国内也有大量公司在ChatGPT引爆热点后,迅速转身并宣称自己是个“AI公司”,实则其AI的部分少得可怜,甚至纯粹是由实习生们代替。
这不仅对投资人的回报收益是有害的,正如假药会销往寻常百姓家,这种AI蛇油也会对所有用户产生影响,甚至困在这种“假药系统”中。
在这本《人工智能蛇油:AI能做什么、不能做什么以及如何区分(AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference)》中,两位作者研究了五十项AI应用,发现在预测式AI应用中假药横行,这些应用已经暴露出很多缺陷,并且根据其运行逻辑,它们永远也不可能达到其声称的效果。

《人工智能蛇油:AI能做什么、不能做什么以及如何区分》
预测式AI和生成式AI不同,后者包括以ChatGPT为代表的生成文字、文生图、文生视频等。预测式AI则涵盖法律、医疗、金融、教育等诸多民生领域,比如AI招聘、AI面试、AI评估保险理赔等。
以下是「暗涌waves」的摘录——
1. 在美国,约有四分之三的雇主使用AI工具进行招聘,包括AI简历筛选、AI视频面试等,求职者们在发现这件事情后,便使用了一系列反制措施。求职者可以在简历中加入一些厉害的关键词,比如“哈佛毕业”、“十年工作经验”、“带领过百人团队”等等,再用白字添加进简历中——人类看不到的白字,却能被电脑识别到。
记者在调查后发现,在AI视频面试中,一个人只需要戴上围巾或眼镜就可以大幅改变AI的评分,这些措施包括在背景中放一个书架、让视频变暗,或者仅仅是将简历格式从PDF改为纯文本。
2. 2022年夏天,多伦多利用人工智能工具预测公共海滩的细菌含量,以此来决定何时开放或关闭海滩。事实却证明,该工具的失败率高达64%,也就是说你有六成的可能进入细菌海域游泳。政府在对此进行回应时的策略是:预测工具只是辅助,人工监督员会做出最终决定,但经记者调查后发现,监督员从未改变过AI的决定。
3. 在美国,65岁以上的老人可以加入国家补贴医保。但保险公司为了降低成本,开始使用人工智能来预测病人需要的住院时间。这个初衷很好理解,因为如果没有这套系统,医院理论上会想让病人住得越久越好,以此获取更多收益。但在一个案例中,一位75岁的老人被评估为可以在17天内出院,所以尽管她此时仍无法独立行走,但根据人工智能的评估结果,还是被赶出了医院。
4. 保险公司Allstate想提高自己的保险费率,所以利用人工智能来进行测算,找出有多少客户可以接受保险费提高而不会流失,结果却是人工智能拿出了一份“笨蛋名单”,其中大部分是62岁以上的老人,这是因为老人不太可能货比三家。
5. 宾夕法尼亚洲曾采用一种“家庭筛查工具”来预测哪些儿童会面临虐待风险,如果结果显示该儿童很可能正在被家庭虐待,社工可以选择直接带走小孩,将它安置在寄养家庭中。
但这个工具的问题是,其数据集使用的是公共福利数据,但并不包括使用私人保险的人,简而言之,用这些数据建立模型无法对富裕阶层作出预测。
6. 数据集是预测式人工智能的核心。但我们也知道,随着样本噪声的增加,创建精确模型所需的样本数量也会急剧增加。而社会数据集的噪声很大,社会现象的基本模式并不固定,它们在不同的环境、时间和地点会有很大的不同。因此在某一时间地点被识别成功的模式,只要稍稍改变一个参数,就完全没有参考价值了。
7. 此前作者发起了挑战赛:使用每个孩子约一万条社会学相关数据,来预测这些孩子的学习成绩是否会提升,结果失败得很彻底。后续我们复盘的时候,发现有很多和学习成绩这个结果直接相关的数据,是不可能被记录进数据集的。比如一个孩子学习成绩突然提高,是因为邻居给他蓝莓吃,还帮他做作业,这种家庭之外的影响也很重要。
8. 所以,为什么要有预测式AI的出现?一个主要原因是我们实在太厌恶随机性。很多心理学实验都证明了这点,我们甚至会幻想自己可以预测那些事实上是随机出现的事物。
但用人工智能预测只会让我们离想要的未来更远。毕竟大部分人都不会期待一个预测成功率极其有限,却会让弱者遭受系统性歧视的未来。

参考文献:

[1]Arvind Narayanan、Sayash KapoorAI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference

图片来源 |《钢的琴》剧照

但在一个案例中,一位75岁的老人被评估为可以在17天内出院,所以尽管她此时仍无法独立行走,但根据人工智能的评估结果,还是被赶出了医院。...很多心理学实验都证明了这点,我们甚至会幻想自己可以预测那些事实上是随机出现的事物。

徐牧心

19世纪末,一种名为蛇油的保健品在美国出现,号称自己包治百病,延年益寿,因此风靡一时。
这种所谓神药,在中国也有本土化的版本。电影《钢的琴》中就有这样一句台词,形容假药贩子的行径:两斤炉果(一种东北饼干)兑一片扑热息痛,用破胶囊壳子装起来。撑不死人,也药不死人。
而今,两位硅谷计算机科学家,Arvind Narayanan和Sayash Kapoor认为当代人工智能领域,正充斥着大量蛇油假药。而这不仅仅是硅谷的问题,国内也有大量公司在ChatGPT引爆热点后,迅速转身并宣称自己是个“AI公司”,实则其AI的部分少得可怜,甚至纯粹是由实习生们代替。
这不仅对投资人的回报收益是有害的,正如假药会销往寻常百姓家,这种AI蛇油也会对所有用户产生影响,甚至困在这种“假药系统”中。
在这本《人工智能蛇油:AI能做什么、不能做什么以及如何区分(AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference)》中,两位作者研究了五十项AI应用,发现在预测式AI应用中假药横行,这些应用已经暴露出很多缺陷,并且根据其运行逻辑,它们永远也不可能达到其声称的效果。

《人工智能蛇油:AI能做什么、不能做什么以及如何区分》
预测式AI和生成式AI不同,后者包括以ChatGPT为代表的生成文字、文生图、文生视频等。预测式AI则涵盖法律、医疗、金融、教育等诸多民生领域,比如AI招聘、AI面试、AI评估保险理赔等。
以下是「暗涌waves」的摘录——
1. 在美国,约有四分之三的雇主使用AI工具进行招聘,包括AI简历筛选、AI视频面试等,求职者们在发现这件事情后,便使用了一系列反制措施。求职者可以在简历中加入一些厉害的关键词,比如“哈佛毕业”、“十年工作经验”、“带领过百人团队”等等,再用白字添加进简历中——人类看不到的白字,却能被电脑识别到。
记者在调查后发现,在AI视频面试中,一个人只需要戴上围巾或眼镜就可以大幅改变AI的评分,这些措施包括在背景中放一个书架、让视频变暗,或者仅仅是将简历格式从PDF改为纯文本。
2. 2022年夏天,多伦多利用人工智能工具预测公共海滩的细菌含量,以此来决定何时开放或关闭海滩。事实却证明,该工具的失败率高达64%,也就是说你有六成的可能进入细菌海域游泳。政府在对此进行回应时的策略是:预测工具只是辅助,人工监督员会做出最终决定,但经记者调查后发现,监督员从未改变过AI的决定。
3. 在美国,65岁以上的老人可以加入国家补贴医保。但保险公司为了降低成本,开始使用人工智能来预测病人需要的住院时间。这个初衷很好理解,因为如果没有这套系统,医院理论上会想让病人住得越久越好,以此获取更多收益。但在一个案例中,一位75岁的老人被评估为可以在17天内出院,所以尽管她此时仍无法独立行走,但根据人工智能的评估结果,还是被赶出了医院。
4. 保险公司Allstate想提高自己的保险费率,所以利用人工智能来进行测算,找出有多少客户可以接受保险费提高而不会流失,结果却是人工智能拿出了一份“笨蛋名单”,其中大部分是62岁以上的老人,这是因为老人不太可能货比三家。
5. 宾夕法尼亚洲曾采用一种“家庭筛查工具”来预测哪些儿童会面临虐待风险,如果结果显示该儿童很可能正在被家庭虐待,社工可以选择直接带走小孩,将它安置在寄养家庭中。
但这个工具的问题是,其数据集使用的是公共福利数据,但并不包括使用私人保险的人,简而言之,用这些数据建立模型无法对富裕阶层作出预测。
6. 数据集是预测式人工智能的核心。但我们也知道,随着样本噪声的增加,创建精确模型所需的样本数量也会急剧增加。而社会数据集的噪声很大,社会现象的基本模式并不固定,它们在不同的环境、时间和地点会有很大的不同。因此在某一时间地点被识别成功的模式,只要稍稍改变一个参数,就完全没有参考价值了。
7. 此前作者发起了挑战赛:使用每个孩子约一万条社会学相关数据,来预测这些孩子的学习成绩是否会提升,结果失败得很彻底。后续我们复盘的时候,发现有很多和学习成绩这个结果直接相关的数据,是不可能被记录进数据集的。比如一个孩子学习成绩突然提高,是因为邻居给他蓝莓吃,还帮他做作业,这种家庭之外的影响也很重要。
8. 所以,为什么要有预测式AI的出现?一个主要原因是我们实在太厌恶随机性。很多心理学实验都证明了这点,我们甚至会幻想自己可以预测那些事实上是随机出现的事物。
但用人工智能预测只会让我们离想要的未来更远。毕竟大部分人都不会期待一个预测成功率极其有限,却会让弱者遭受系统性歧视的未来。

参考文献:

[1]Arvind Narayanan、Sayash KapoorAI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference

图片来源 |《钢的琴》剧照

展开
打开“财经头条”阅读更多精彩资讯
APP内打开