第522章巴别塔（4827）

第522章巴别塔（4827） (第1/2页)

打破了语言矩阵！？
　　
　　谢尔盖布林打了个激灵，视线马上重新回到了屏幕上密密麻麻的曲线图上。
　　
　　抢过德米斯哈萨比斯手中的鼠标，谢尔盖布林不停地向下滑动着鼠标滚轮。
　　
　　大周语、普鲁士语、高卢语、盎语、倭语、大毛语、西拜语、葡图佳语、意呆利语、巴拉特语……
　　
　　超过三百张曲线对比图无一不是在说明这样一个事实——
　　
　　Juzi2.5十五种语言的各种性能曲线，几乎全都在同一水平线之上！
　　
　　无论是理解和记忆，推理与认知、自主规划和决策、自我优化与学习、情绪与社交模拟、工具调用……
　　
　　除了生成和表达存在较大的波动值之外，其他几乎所有能力的性能，尤其是推理和认知，在各种语言环境下，几乎是完全一样的！
　　
　　连百分之一的差距都没有！
　　
　　这怎么可能！？
　　
　　这完全违背了大模型的原理！
　　
　　“是不是通过参数调整，把所有语言的性能进行了拉齐操作？或者本身先翻译成盎语后，用盎语思考，再翻译回思维链？”
　　
　　谢尔盖布林感觉自己瞬间头顶和腋下就冒出了汗。
　　
　　人工智能，所谓智能，就是思考，而思考，就需要语言，无论人还是计算机，都不可能脱离语言来思考。
　　
　　大模型AI更是如此。
　　
　　这些大模型，可能掌握了全世界所有的语言，但使用不同语言进行思考时，大模型的在不同方面的性能表现都是不同的。
　　
　　一来，是因为不同语言训练资料的多寡和质量的差异。
　　
　　在当今的互联网时代，盎语语料当然是最丰富的，占到互联网整体资料量的百分之八十以上。
　　
　　AlphaZero在使用盎语进行理解和推理的时候，正确率相对其他语言会高5%以上。
　　
　　二来，各种不同的语言本身就存在不同的“表达偏重”和“性能差异”。
　　
　　比如普鲁士语，在结构推理方面的速度比盎语更快，西拜语则在感性类语料中优势明显。
　　
　　而大模型在一次思考回路中，通常使用单一语言构建其推理路径。
　　
　　虽然它可以在输入阶段识别多种语言，在输出阶段进行翻译，但其内在的认知张量结构，仍旧倾向于使用输入语言所构建的token空间进行语义演算。
　　
　　说人话，就是大模型在思考问题的时候，在一个思考回路中，基本只会使用一种语言来思考，你使用盎文，它就用盎文思考，你使用周文，它就用周文思考。
　　
　　就算它在回复中掺杂了其他语言，也只是一种资料引用或人类写作风格的模仿，而不是真正的跨语种思考。
　　
　　橘子大模型又怎么可能使用不同语言思考的时候，各方面性能都差不多的？
　　
　　这完全不符合常理！
　　
　　唯一的可能性，就是对各种语言的思考性能进行了拉齐操作。
　　
　　说白了，就是一个木桶，以最短的那个板为基准，把高的板子都砍了。
　　
　　但这样做意义在哪？
　　
　　德米斯哈萨比斯犹豫的摇摇头：“应该不是，拉齐操作资源浪费太严重。”
　　
　　“至于说是不是先把思维翻译成盎语或其他语言……”
　　
　　德米斯哈萨比斯停顿了一下。
　　
　　“我一开始也是这么认为的，但经过测试，并非如此。”
　　
　　说罢，哈萨比斯把实验报告翻到中间。
　　
　　“你看‘抽象归纳’和‘形式推理’这一部分的能力，哪怕在应用‘马拉亚语’时，Juzi2.5依旧能够准确进行抽象归纳和形式推理。”
　　
　　“比如这个实例，在情感理解方面，我们的实验人员要求Juzi用马拉亚语思考并使用盎语将结果输出后，针对实验人员的任务回复中，橘子大模型并未简单的将马拉亚语中的‘manja’翻译为‘pampered’或‘affectionate’。”
　　
　　“而是采用了实际语义下的不同表达。”
　　
　　“比如第一段，它对‘manja’的翻译是‘可爱又粘人’。”
　　
　　“而在第五段，思维链中同样是‘manja’，但因为主体变了，在马拉亚语中‘manja’的含义也产生了微妙变化，这时，它将这里的‘manja’就转化成了‘被宠溺’。”
　　
　　德米斯哈萨比斯摘下眼镜，擦了擦，眯着眼：“盎语中原本没有对应manja这个词的准确翻译，但经过这样转化后，哪怕是一个从未学过盎语的马拉亚人，说出的盎语也不再会让人有任何的误解。”
　　
　　谢尔盖布林看向德米斯哈萨比斯指的那张曲线图，浑身汗毛都立起来了。
　　
　　作为技术宅和古狗老板之一，他现在肯定不是技术最好的，但对人工智能的理解和认知绝对是世界上最顶尖的一批人。
　　
　　这怎么可能呢？
　　
　　马拉亚语因为是孤立语种，语法结构较为扁平，文化语境偏重于口语化和情景驱动，这使得它们在抽象、哲学、技术等领域的表达中先天存在一定限制。
　　
　　这导致部分高阶概念性词汇在语言本体中缺乏，往往只能依靠描述性转译或直接引入外来词。
　　
　　类似“意识”、“存在”、“主观性”、“客观性”这种哲学意象性的词语，马拉亚语中是不存在的，只能直接借用外来语或
　　
　　但同样，马拉亚语中也有相当数量的“柔性词汇”是盎语和西方语系中没有的。
　　
　　这一部分词语的含义往往非常微妙，词典中对应的单词其实或多或少都存在差异。
　　
　　这也就造成了，用不同语料来训练大模型，以及用不同的语言使用大模型时，AI对世界与关系的理解是存在微妙差异的。
　　
　　这种“微妙的差异”看似无所谓，实则常是文化误解与冲突的重要诱因之一。
　　
　　“谢尔盖，这里有个更有代表性的，就是它对‘sin’的理解。”
　　
　　德米斯哈萨比斯点着触摸板向上划了划：“你看这里，这是Juzi2.5G在同一个话题中，周文和盎文的思维链对照。”
　　
　　“哦，可能你不知道，sin，在周文中，一般翻译为‘罪’，但周文中‘罪’这个字的意思范围和sin并不等同。”
　　
　　德米斯哈萨比斯周裔混血，会一点周文，原本是分不清楚这里面细微的语义差异的。
　　
　　但对于他这样的天才来说，只要他意识到其中的问题，开始研究这方面，不需要太长时间就能对这种概念性的差异一清二楚。
　　
　　“可一直以来，无论任何翻译者，基本都忽视了这一点，只是生搬硬套的直接把周文的‘罪’翻译为‘sin’，把盎文的‘sin’翻译为‘罪’。”
　　
　　“Juzi2.5则不同，在阐述法律问题的时候，它把sin正常翻译成了周文中的‘罪’。”
　　
　　“而在后面的信仰问题中，它视不同语境，对sin的不同语义表达至少用周文做了六种不同表达，分别是‘忤逆’、‘冒犯’、‘过错’、‘忘恩负义’、‘邪道’和‘苦难’。”
　　
　　“这些不同的表达，在各自语境中，恰恰捕捉了‘sin’一词在那个语境下最贴近原意的表达，基本不会因为用词遣句的微妙差异而导致另一方出现错误主观判断。”
　　
　　“哦，对了，就连‘主观’与‘判断’这两个常见词，在周文与盎文中也呈现出微妙的语义偏移。”
　　
　　德米斯哈萨比斯眼神中充满了思索后的震撼。
　　
　　谢尔盖布林眉头紧锁。
　　
　　他当然理解德米斯哈萨比斯的每一个术语。
　　
　　但他还没有在“哈萨比斯的语言学介绍”与“Juzi2.5在多语言条件下思维表现趋同”之间建立起完全的因果映射。
　　
　　这似乎只是……更好的翻译软件？
　　
　　

（本章未完，请点击下一页继续阅读）

零点看书

第522章 巴别塔（4827）

第522章巴别塔（4827）