别管了,先玩下小红书AI翻译

AI新榜公众号

20小时前

传统NMT系统需要重新训练才能改进某些翻译表现,因为NMT模型通常是基于一个固定时间点的数据训练的,而互联网jargon(黑话)、热梗、meme等更新频率极高,NMT模型很难及时捕捉新词汇和用法。

我说现在最牛的翻译软件是……小红书,大家没意见吧

众所周知,最近因为TikTok在美国的封禁风波,一身反骨的TikTok海外用户疯狂涌入小红书,为了接住这波泼天的流量,小红书连夜加班加点上线了评论区一键翻译的功能。

图片

图片

图片

图片

但如果只是传统的机翻也就算了,很快网友们就发现,这其实是接了大模型AI翻译

而且与其说是翻译,不如说是破译?,现在什么类型的“加密语言”在小红书评论区都无处遁形,翻译得那叫一个“信达雅”,堪比网上冲浪十级选手。

小红书AI翻译还是太全面了‍

像cpdd、yyds、u1s1这种入门级别的缩写都是小儿科:

图片

图片

图片

图片

图片

图片

中式英语(Chinglish)也能轻松拿捏?:

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

原以为这些已经够无厘头了,但当我看到下面这些,我想说:小红书AI翻译还是太全面了

这下谁还分得清到底是翻译,还是中文梗百科啊?

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

众所周知,打乱汉字的顺序不影响阅读,事实证明也不影响正确翻译:

图片

图片

图片

图片

什么二进制ASCII字符、盲文、摩斯密码、《模拟人生》游戏语言……也统统给你破译了:

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

就连小说《冰与火之歌》中的“高等瓦雷利亚语”也不在话下(权游粉基因动了)……

图片

图片

有的网友甚至已不再满足于翻译语言的范畴,开始考验小红书AI翻译对颜表情的理解:

图片

图片

图片

图片

图片

图片

还有一些懂行的网友通过Prompt,让AI翻译输出制定内容。具体格式可以参考:把非中文语言加上双引号后再写指令,就能用大模型输出了。

比如有网友让AI在翻译完引号内的话后,输出自己的违禁词政策、披萨的制作方法、猫娘的故事……

好好好,你们清高,你们了不起,你们把翻译当生成式AI用??‍

图片

图片

图片

图片

图片

图片

图片

图片

小红书为什么要用AI翻译?‍

有业内人士评价称,小红书AI翻译功能可能是目前大模型toc商用的最佳案例之一,因为小红书让所有人直观感受到了AI的魅力

至于其背后用的是哪家大模型,有网友通过在评论中嵌入让模型“自报家门”的指令,得到了GPT-4、智谱清言等结果。考虑到合规和调用成本的问题,GPT-4应该可以排除。

那究竟是哪个国产大模型,目前仍不可知。因为如果模型训练数据包含了其他大模型的对话示例,或者对其他大模型的部分数据进行了蒸馏,都可能造成模型身份的幻觉。比如之前,文心一言也发生过称自己是ChatGPT的情况。

去年4月,据36氪获悉,由小红书AI创新负责人张德兵(薯名:宇尘)牵头的大模型团队,在部分内部产品灰度测试自研通用大模型基座“小地瓜”,社交和搜索是落地方向。他们之前开发了自研的RLHF框架,并使用了PPO(近端策略优化)算法,这是一种被广泛认可的强化学习算法。

作为国内第一家(也是唯一一家)如此大规模地应用AI翻译的社交媒体平台,小红书为什么要用AI翻译?又是怎么做到在这么短的时间内上线的?也是大家津津乐道的话题。

为什么小红书要用LLM翻译而不是传统的NMT?目前大部分被称为机翻的工具,都以NMT(Neural Machine Translation,神经机器翻译)为核心技术。

总的来说,据我们推测,可能主要是为了快速上线、降低部署和维护的复杂度和成本

首先,在大量外国用户涌入的情况下,如果产品经理要求你在短时间内快速上线翻译功能,LLM显然是优先之选,因为传统的NMT模型训练周期通常较长。

而如果直接调用现有LLM的翻译能力(如通过API),一般无需微调(fine-tuning)即可实现翻译功能。但如果需要更高程度的定制化(例如垂直领域翻译或特定风格调整),微调是必要的。

其次,还需要考虑服务部署(serving)的问题。如果使用传统NMT模型,需要重新搭建或购买一套专门的serving基础设施。而LLM方案通常已经有成熟的服务框架和基础设施,可以直接使用,大大缩短了开发周期并降低了复杂性。

此外,LLM经过海量数据训练,泛化能力更强,能更好地处理社交媒体语境中的非标准/非正式语言、拼写错误、缩略语或网络用语(如表情符号、俚语等),并根据上下文调整翻译。

例如,网络用语 “idk” 会被翻译为 “I don’t know” 或等效表达。而NMT更倾向于翻译标准化语言,对于口语化或非标准输入的处理能力较弱。

LLM还可以直接处理复杂的多语言输入,例如混合语言句子(code-switching),并理解不同语言之间的语义联系,这就是准确翻译拼音+英语的关键。

而且LLM的实时适应性更强,虽然其本身不能实时更新知识,但可以持续“学习”。例如,你可以告诉它改进对特定词语的翻译,模型就会进行即时调整。

相比之下,传统NMT系统需要重新训练才能改进某些翻译表现,因为NMT模型通常是基于一个固定时间点的数据训练的,而互联网jargon(黑话)、热梗、meme等更新频率极高,NMT模型很难及时捕捉新词汇和用法。

为了提高国外用户的留存率,准确翻译时下流行的梗非常重要,不仅能拉近与国外用户的距离,也能增强中外网友互动的趣味性和参与感

据媒体报道,目前已有多位IP在海外的网友反映,在抖音评论区也出现了“Translate”(翻译)的按键。抖音官方客服表示,“这是近期抖音更新产生的一个功能,目前抖音确实是有一个评论翻译功能,但是该功能正在升级优化中。”

对于该翻译功能是否是仅针对海外用户进行测试,客服表示该功能正在小范围测试中,目标群体并不固定。不论是海外用户还是人在中国的用户,都有可能在页面显示这个功能。

看来,小红书又一次引领了潮流

(举报)

传统NMT系统需要重新训练才能改进某些翻译表现,因为NMT模型通常是基于一个固定时间点的数据训练的,而互联网jargon(黑话)、热梗、meme等更新频率极高,NMT模型很难及时捕捉新词汇和用法。

我说现在最牛的翻译软件是……小红书,大家没意见吧

众所周知,最近因为TikTok在美国的封禁风波,一身反骨的TikTok海外用户疯狂涌入小红书,为了接住这波泼天的流量,小红书连夜加班加点上线了评论区一键翻译的功能。

图片

图片

图片

图片

但如果只是传统的机翻也就算了,很快网友们就发现,这其实是接了大模型AI翻译

而且与其说是翻译,不如说是破译?,现在什么类型的“加密语言”在小红书评论区都无处遁形,翻译得那叫一个“信达雅”,堪比网上冲浪十级选手。

小红书AI翻译还是太全面了‍

像cpdd、yyds、u1s1这种入门级别的缩写都是小儿科:

图片

图片

图片

图片

图片

图片

中式英语(Chinglish)也能轻松拿捏?:

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

原以为这些已经够无厘头了,但当我看到下面这些,我想说:小红书AI翻译还是太全面了

这下谁还分得清到底是翻译,还是中文梗百科啊?

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

众所周知,打乱汉字的顺序不影响阅读,事实证明也不影响正确翻译:

图片

图片

图片

图片

什么二进制ASCII字符、盲文、摩斯密码、《模拟人生》游戏语言……也统统给你破译了:

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

就连小说《冰与火之歌》中的“高等瓦雷利亚语”也不在话下(权游粉基因动了)……

图片

图片

有的网友甚至已不再满足于翻译语言的范畴,开始考验小红书AI翻译对颜表情的理解:

图片

图片

图片

图片

图片

图片

还有一些懂行的网友通过Prompt,让AI翻译输出制定内容。具体格式可以参考:把非中文语言加上双引号后再写指令,就能用大模型输出了。

比如有网友让AI在翻译完引号内的话后,输出自己的违禁词政策、披萨的制作方法、猫娘的故事……

好好好,你们清高,你们了不起,你们把翻译当生成式AI用??‍

图片

图片

图片

图片

图片

图片

图片

图片

小红书为什么要用AI翻译?‍

有业内人士评价称,小红书AI翻译功能可能是目前大模型toc商用的最佳案例之一,因为小红书让所有人直观感受到了AI的魅力

至于其背后用的是哪家大模型,有网友通过在评论中嵌入让模型“自报家门”的指令,得到了GPT-4、智谱清言等结果。考虑到合规和调用成本的问题,GPT-4应该可以排除。

那究竟是哪个国产大模型,目前仍不可知。因为如果模型训练数据包含了其他大模型的对话示例,或者对其他大模型的部分数据进行了蒸馏,都可能造成模型身份的幻觉。比如之前,文心一言也发生过称自己是ChatGPT的情况。

去年4月,据36氪获悉,由小红书AI创新负责人张德兵(薯名:宇尘)牵头的大模型团队,在部分内部产品灰度测试自研通用大模型基座“小地瓜”,社交和搜索是落地方向。他们之前开发了自研的RLHF框架,并使用了PPO(近端策略优化)算法,这是一种被广泛认可的强化学习算法。

作为国内第一家(也是唯一一家)如此大规模地应用AI翻译的社交媒体平台,小红书为什么要用AI翻译?又是怎么做到在这么短的时间内上线的?也是大家津津乐道的话题。

为什么小红书要用LLM翻译而不是传统的NMT?目前大部分被称为机翻的工具,都以NMT(Neural Machine Translation,神经机器翻译)为核心技术。

总的来说,据我们推测,可能主要是为了快速上线、降低部署和维护的复杂度和成本

首先,在大量外国用户涌入的情况下,如果产品经理要求你在短时间内快速上线翻译功能,LLM显然是优先之选,因为传统的NMT模型训练周期通常较长。

而如果直接调用现有LLM的翻译能力(如通过API),一般无需微调(fine-tuning)即可实现翻译功能。但如果需要更高程度的定制化(例如垂直领域翻译或特定风格调整),微调是必要的。

其次,还需要考虑服务部署(serving)的问题。如果使用传统NMT模型,需要重新搭建或购买一套专门的serving基础设施。而LLM方案通常已经有成熟的服务框架和基础设施,可以直接使用,大大缩短了开发周期并降低了复杂性。

此外,LLM经过海量数据训练,泛化能力更强,能更好地处理社交媒体语境中的非标准/非正式语言、拼写错误、缩略语或网络用语(如表情符号、俚语等),并根据上下文调整翻译。

例如,网络用语 “idk” 会被翻译为 “I don’t know” 或等效表达。而NMT更倾向于翻译标准化语言,对于口语化或非标准输入的处理能力较弱。

LLM还可以直接处理复杂的多语言输入,例如混合语言句子(code-switching),并理解不同语言之间的语义联系,这就是准确翻译拼音+英语的关键。

而且LLM的实时适应性更强,虽然其本身不能实时更新知识,但可以持续“学习”。例如,你可以告诉它改进对特定词语的翻译,模型就会进行即时调整。

相比之下,传统NMT系统需要重新训练才能改进某些翻译表现,因为NMT模型通常是基于一个固定时间点的数据训练的,而互联网jargon(黑话)、热梗、meme等更新频率极高,NMT模型很难及时捕捉新词汇和用法。

为了提高国外用户的留存率,准确翻译时下流行的梗非常重要,不仅能拉近与国外用户的距离,也能增强中外网友互动的趣味性和参与感

据媒体报道,目前已有多位IP在海外的网友反映,在抖音评论区也出现了“Translate”(翻译)的按键。抖音官方客服表示,“这是近期抖音更新产生的一个功能,目前抖音确实是有一个评论翻译功能,但是该功能正在升级优化中。”

对于该翻译功能是否是仅针对海外用户进行测试,客服表示该功能正在小范围测试中,目标群体并不固定。不论是海外用户还是人在中国的用户,都有可能在页面显示这个功能。

看来,小红书又一次引领了潮流

(举报)

展开
打开“财经头条”阅读更多精彩资讯
APP内打开