第522章 巴别塔(4827)
第522章 巴别塔(4827) (第1/2页)打破了语言矩阵!?
谢尔盖布林打了个激灵,视线马上重新回到了屏幕上密密麻麻的曲线图上。
抢过德米斯哈萨比斯手中的鼠标,谢尔盖布林不停地向下滑动着鼠标滚轮。
大周语、普鲁士语、高卢语、盎语、倭语、大毛语、西拜语、葡图佳语、意呆利语、巴拉特语……
超过三百张曲线对比图无一不是在说明这样一个事实——
Juzi2.5十五种语言的各种性能曲线,几乎全都在同一水平线之上!
无论是理解和记忆,推理与认知、自主规划和决策、自我优化与学习、情绪与社交模拟、工具调用……
除了生成和表达存在较大的波动值之外,其他几乎所有能力的性能,尤其是推理和认知,在各种语言环境下,几乎是完全一样的!
连百分之一的差距都没有!
这怎么可能!?
这完全违背了大模型的原理!
“是不是通过参数调整,把所有语言的性能进行了拉齐操作?或者本身先翻译成盎语后,用盎语思考,再翻译回思维链?”
谢尔盖布林感觉自己瞬间头顶和腋下就冒出了汗。
人工智能,所谓智能,就是思考,而思考,就需要语言,无论人还是计算机,都不可能脱离语言来思考。
大模型AI更是如此。
这些大模型,可能掌握了全世界所有的语言,但使用不同语言进行思考时,大模型的在不同方面的性能表现都是不同的。
一来,是因为不同语言训练资料的多寡和质量的差异。
在当今的互联网时代,盎语语料当然是最丰富的,占到互联网整体资料量的百分之八十以上。
AlphaZero在使用盎语进行理解和推理的时候,正确率相对其他语言会高5%以上。
二来,各种不同的语言本身就存在不同的“表达偏重”和“性能差异”。
比如普鲁士语,在结构推理方面的速度比盎语更快,西拜语则在感性类语料中优势明显。
而大模型在一次思考回路中,通常使用单一语言构建其推理路径。
虽然它可以在输入阶段识别多种语言,在输出阶段进行翻译,但其内在的认知张量结构,仍旧倾向于使用输入语言所构建的token空间进行语义演算。
说人话,就是大模型在思考问题的时候,在一个思考回路中,基本只会使用一种语言来思考,你使用盎文,它就用盎文思考,你使用周文,它就用周文思考。
就算它在回复中掺杂了其他语言,也只是一种资料引用或人类写作风格的模仿,而不是真正的跨语种思考。
橘子大模型又怎么可能使用不同语言思考的时候,各方面性能都差不多的?
这完全不符合常理!
唯一的可能性,就是对各种语言的思考性能进行了拉齐操作。
说白了,就是一个木桶,以最短的那个板为基准,把高的板子都砍了。
但这样做意义在哪?
德米斯哈萨比斯犹豫的摇摇头:“应该不是,拉齐操作资源浪费太严重。”
“至于说是不是先把思维翻译成盎语或其他语言……”
德米斯哈萨比斯停顿了一下。
“我一开始也是这么认为的,但经过测试,并非如此。”
说罢,哈萨比斯把实验报告翻到中间。
“你看‘抽象归纳’和‘形式推理’这一部分的能力,哪怕在应用‘马拉亚语’时,Juzi2.5依旧能够准确进行抽象归纳和形式推理。”
“比如这个实例,在情感理解方面,我们的实验人员要求Juzi用马拉亚语思考并使用盎语将结果输出后,针对实验人员的任务回复中,橘子大模型并未简单的将马拉亚语中的‘manja’翻译为‘pampered’或‘affectionate’。”
“而是采用了实际语义下的不同表达。”
“比如第一段,它对‘manja’的翻译是‘可爱又粘人’。”
“而在第五段,思维链中同样是‘manja’,但因为主体变了,在马拉亚语中‘manja’的含义也产生了微妙变化,这时,它将这里的‘manja’就转化成了‘被宠溺’。”
德米斯哈萨比斯摘下眼镜,擦了擦,眯着眼:“盎语中原本没有对应manja这个词的准确翻译,但经过这样转化后,哪怕是一个从未学过盎语的马拉亚人,说出的盎语也不再会让人有任何的误解。”
谢尔盖布林看向德米斯哈萨比斯指的那张曲线图,浑身汗毛都立起来了。
作为技术宅和古狗老板之一,他现在肯定不是技术最好的,但对人工智能的理解和认知绝对是世界上最顶尖的一批人。
这怎么可能呢?
马拉亚语因为是孤立语种,语法结构较为扁平,文化语境偏重于口语化和情景驱动,这使得它们在抽象、哲学、技术等领域的表达中先天存在一定限制。
这导致部分高阶概念性词汇在语言本体中缺乏,往往只能依靠描述性转译或直接引入外来词。
类似“意识”、“存在”、“主观性”、“客观性”这种哲学意象性的词语,马拉亚语中是不存在的,只能直接借用外来语或
但同样,马拉亚语中也有相当数量的“柔性词汇”是盎语和西方语系中没有的。
这一部分词语的含义往往非常微妙,词典中对应的单词其实或多或少都存在差异。
这也就造成了,用不同语料来训练大模型,以及用不同的语言使用大模型时,AI对世界与关系的理解是存在微妙差异的。
这种“微妙的差异”看似无所谓,实则常是文化误解与冲突的重要诱因之一。
“谢尔盖,这里有个更有代表性的,就是它对‘sin’的理解。”
德米斯哈萨比斯点着触摸板向上划了划:“你看这里,这是Juzi2.5G在同一个话题中,周文和盎文的思维链对照。”
“哦,可能你不知道,sin,在周文中,一般翻译为‘罪’,但周文中‘罪’这个字的意思范围和sin并不等同。”
德米斯哈萨比斯周裔混血,会一点周文,原本是分不清楚这里面细微的语义差异的。
但对于他这样的天才来说,只要他意识到其中的问题,开始研究这方面,不需要太长时间就能对这种概念性的差异一清二楚。
“可一直以来,无论任何翻译者,基本都忽视了这一点,只是生搬硬套的直接把周文的‘罪’翻译为‘sin’,把盎文的‘sin’翻译为‘罪’。”
“Juzi2.5则不同,在阐述法律问题的时候,它把sin正常翻译成了周文中的‘罪’。”
“而在后面的信仰问题中,它视不同语境,对sin的不同语义表达至少用周文做了六种不同表达,分别是‘忤逆’、‘冒犯’、‘过错’、‘忘恩负义’、‘邪道’和‘苦难’。”
“这些不同的表达,在各自语境中,恰恰捕捉了‘sin’一词在那个语境下最贴近原意的表达,基本不会因为用词遣句的微妙差异而导致另一方出现错误主观判断。”
“哦,对了,就连‘主观’与‘判断’这两个常见词,在周文与盎文中也呈现出微妙的语义偏移。”
德米斯哈萨比斯眼神中充满了思索后的震撼。
谢尔盖布林眉头紧锁。
他当然理解德米斯哈萨比斯的每一个术语。
但他还没有在“哈萨比斯的语言学介绍”与“Juzi2.5在多语言条件下思维表现趋同”之间建立起完全的因果映射。
这似乎只是……更好的翻译软件?
(本章未完,请点击下一页继续阅读)