#言少必失#
ChatGPT对小语种严重的不利。
说到底,这类AI模型依赖于数据训练,这意味着它对语言本身拥有的语料敏感。
这就给各种语言布置了家庭作业。
首先你要解决教会机器说自己的语言的问题。要教会它语法、词汇、固定表达。这本身就是一个复杂的智力工作,对小语种、人口不多的国家,这种投入的难度和规模并没有降低。
第二,你要用本语种的素材去对这些模型做训练。这不仅仅又相当大的一笔资金和人才的投入,还有一个该语种本身覆盖的知识库是否足够宽广的问题。
那么问题来了,对罗马尼亚语、希腊语、斯瓦希里语、藏语、泰语、越南语、缅甸语、宿雾语……的语言人口来说,ChatGPT意味着什么?
中英法西俄阿这些有数亿使用者的语言尚属安全,对韩语、德语、日语来说,这次的浪潮或者还不构成严重的问题,但是对那些没有这个能力靠自己的人才和自己的资源来迈过这个技术门槛的人口来说,他们很可能要采用“套壳方案”。
也就是prompt会先被转换成别的语言,在别的语言获得答案,然后系统再把答案翻译成查询语言显示。
姑且不提套壳本身对文化的架空作用,这种翻译的准确程度还要严重的依赖于在翻译上投入的资源。
如果你是一个很小的语种、国家又没有什么市场规模,又缺少对本民族富有责任感的精英阶层,你又能指望多少资源呢?
那么这就要指望主流文化圈来替你实现这个服务了。
比如英语到泰语的互译,泰国人不做,交给美国人做。
看上去这似乎可行,但实际上这不可避免的会导致这种互译以英语为本位。
什么意思呢?就是从英语翻译到泰语,往往没有什么问题——系统可以找到最中正和平的主流表达,能让泰国人明白美国人的意思。
而且是能充分地为一切英文表达找到泰文对应——对美国人想说什么、最容易说什么,开发人员都一清二楚。
但是一旦反过来,泰国人却要在一开始就要考虑到翻译器会怎么翻译,小心的选择最保守、最朴素的说法,以免翻译引擎完全搞错意思。
因为开发者对泰国人怎么说话的了解是非常片面和狭窄的,远远的落后于母语使用者。
也就是要想顺畅的使用翻译引擎,泰国人要被迫讲“欧式泰语”。
几乎所有的俚语、俗语、特别的语气词……等等等等全都要绕开,才有可能比较顺利和不太失真的翻译为英语。
问题来了——这意味着一个逻辑悖论——要让泰译英正确工作,负责输入的泰国人要首先熟知英语,约等于用另一只电筒照射才会亮的电筒。
能有本事用得了它的人,都忍不住思考这样一个问题——“我精通英语到这个地步,为什么我还要憋着用泰语/韩语/越南语……呢?”
这样的“互译”实际上是几乎没有意义的,也基本不能解决小语种套壳使用大语言模型的问题。
简单来说,这类技术进步会进一步造成小语种使用者的成本和相对劣势,对文化多样性造成威胁,这基本上是肯定的。