揭秘Trillion 7B：突破性的韩语为中心多语言大模型技术解析

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

揭秘Trillion 7B：突破性的韩语为中心多语言大模型技术解析

作者：科技行者

2025-04-25 14:22

分享至：

想象一下，这就像是在一场马拉松比赛中，有些选手获得了高级跑鞋和专业训练营，而其他选手却只能穿着普通鞋子，自行训练。结果可想而知——差距只会越拉越大。Trillion Labs的研究人员正是看到了这一问题，决定寻找一种新的解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-25 14:22 • 科技行者

2025年4月，Trillion Labs研究团队发布了一项引人注目的研究成果——Trillion 7B，这是当前最具令牌效率的韩语为中心多语言大型语言模型。该研究以技术报告形式发表于arXiv（arXiv:2504.15431v1），详细介绍了这一创新模型的设计原理、训练方法和性能表现。

一、突破多语言AI困境：Trillion 7B的创新方案

在人工智能领域，语言模型的发展一直存在明显的资源不平衡问题。虽然英语和中文等高资源语言取得了显著进展，但韩语等资源较少的语言往往面临严重的性能差距。究其原因，主要是数据规模的巨大差异。尽管全球有超过8100万人使用韩语，但在常见的网络爬取数据集（如mC4）中，韩语内容不到英语数据量的2%。这种严重失衡意味着除英语和中文外的语言难以跟随已被证明成功的扩展轨迹。

他们提出的方法不是简单地增加非英语数据的数量（这在实际操作中成本过高且效率低下），而是通过创新的架构设计——跨语言文档注意力机制（Cross-lingual Document Attention，XLDA）提高现有数据的利用效率。这种方法就像是设计了一种特殊的学习策略，让选手即使装备有限，也能获得与顶尖选手相近的表现。

Trillion 7B的训练数据总量为2万亿个令牌，但与其他韩语为主的模型不同的是，它仅将约10%（不到2200亿个令牌，其中韩语不到1800亿）用于多语言数据。这种高效的训练方法意味着使用更少的计算资源就能达到竞争性的多语言性能，整个训练过程仅消耗了59.4K H100 GPU小时（约14.8万美元）。

二、XLDA：跨语言知识传递的创新机制

跨语言文档注意力（XLDA）机制是Trillion 7B的核心技术创新。在传统的语言模型预训练中，通常会将多个短文档打包成单个长序列以最大化GPU利用率。一般来说，训练流程会在每个文档边界引入分段掩码，防止令牌关注前面文档中的令牌，避免跨注意力污染。

这就像是在学校里，不同班级的学生各自学习自己的课程，互不干扰。虽然这种做法看似合理，但在多语言环境中，却可能无意中阻断了有益的跨语言对应关系，就像阻止了不同语言班级之间的知识交流。

为了解决这个问题，XLDA引入了两个关键机制：

战略性批次级文档打包：XLDA确保每个序列包含来自至少两种语言（英语+非英语）的连续文本段。研究团队采用了一种控制采样策略，以预定的比率组合不同语言的文档，创造跨语言学习的机会。这种语言内容的有意交织创造了丰富的训练环境，让模型能够识别跨语言模式和对应关系。

选择性注意力掩码：XLDA掩码保持了跨语言块的完全自注意力，允许来自不同语言文档的令牌互相关注。这与标准因果掩码形成鲜明对比，后者会阻止跨文档边界的注意力流动。

这种方法的设计理念源于两个关键见解：首先，研究表明适当的文档序列打包可以显著增强同时训练的序列之间的知识整合；其次，代码切换（在一段话中混合使用多种语言）已被证明能显著提高语言对齐能力。XLDA建立在这些见解之上，在预训练期间启用跨文档注意力，为跨语言知识传递创造自然机会，而无需显式的代码切换数据。

简单来说，XLDA就像是让不同语言的学生一起上课，相互学习和交流，从而加速知识的传递和吸收。这种方法不仅提高了训练效率，还使模型能够更好地理解和生成多种语言的内容。

三、预训练：高效模型训练的全方位优化

Trillion 7B的预训练过程包含了多项创新和优化策略，确保模型在有限资源下实现最佳性能：

预训练数据

预训练语料库总共包含约2万亿个令牌，跨越英语、多语言、数学和编码领域。令牌分布遵循8.5:1:0.5的比例（英语:韩语:其他语言/数学/代码），创建了一个以英语为主导的数据分布。正是XLDA机制使这种不平衡的预训练分布成为可行，尽管数据表示不对称，但仍能实现有效的跨语言迁移。

在非英语和非韩语部分，团队纳入了日语、中文、代码、数学和其他多语言数据。这种语言混合鼓励模型主要以英语发展核心语言无关表示，这与很难扩展的均衡语言分布形成对比，后者可能导致语言之间的负面干扰。

为了确保数据质量，研究团队使用Qwen-72B-Instruct模型对预训练数据进行评分。对于英语，他们保留了分数排名前80%的文档，而对于其他语言，则应用了更严格的过滤阈值，只保留排名前50%的多语言数据。

两阶段预训练

Trillion 7B采用两阶段预训练方法。初始阶段使用高学习率进行训练，随后进入退火阶段，学习率开始降低，同时调整数据组成。在退火阶段，研究者进一步提高整体数据质量并修改混合组成。对于英语数据，他们只选择质量排名前20%的文档；对于多语言数据，则应用更严格的标准，只选择排名前10%的文档。这种提高的质量减少了梯度噪声，促进更有效的优化，使模型能够更好地在损失谷中整合知识。此外，他们在退火阶段显著增加了多语言数据的比例，将其数量增加两倍，以进一步促进跨语言知识迁移。

可扩展训练配方实验

团队采用了结合已建立的经验缩放定律与小规模实验收集的证据的混合策略。他们特别关注解决下游任务中观察到的涌现现象——在验证损失超过关键阈值后，下游任务性能会出现非线性改进。他们观察到这一涌现阈值与模型上下文学习能力的出现紧密相关。

研究发现，一个具有18亿参数、在约1000亿个令牌上训练的模型可以作为良好的代理，用于确定最佳训练配置，因为它可以高效训练，同时仍然观察到下游任务改进的涌现。

关于关键超参数如学习率，他们依据Deepseek-V1的结果，发现学习率μ∝C^(-0.125)的规律，在扩大规模时将最优学习率μ缩放0.57倍。对于词汇表大小，他们利用Tao等人的发现，非词汇表大小与计算呈幂律关系N_v∝C^0.42，这表明在扩大规模时应至少将多语言令牌数量增加6.3倍。

模型架构和超参数

Trillion基于Transformer解码器架构，具有32层，隐藏大小为4096，前馈维度为11008。模型在每个转换器、注意力和前馈层之前和之后对隐藏表示进行归一化。

团队采用了多令牌预测（MTP）策略，除了下一个令牌预测（NTP）损失外，还通过在最后一层之后添加新的Transformer层来预测第二个下一个令牌。MTP损失通过超参数α与NTP损失组合，这一层在预训练后被丢弃，不用于后训练。

分词器优化

Trillion 7B使用字节级字节对编码（BPE）分词器。初步实验表明，非英语语言的词汇量过大会因不常出现的令牌更新稀疏而对模型性能产生负面影响，而词汇量过小则会增加令牌数量，降低训练效率。

最终的分词器包含128,256个字节级令牌，其中约100,000个令牌分配给英语，24,552个令牌分配给韩语，剩余令牌分配给其他多语言内容。尽管缩放定律建议韩语最优词汇量约13,000个令牌，但选择更大的词汇量是为了提高推理速度，从而增加有效上下文长度。

训练基础设施

Trillion 7B使用256个H100 GPU训练，每个具有80GB HBM3，使用BF16的混合精度训练。他们使用完全分片数据并行性（FSDP），为了减少FSDP的all-gather操作的高通信成本，只对优化器状态进行分片。模型达到了47.5%的HFU和42.5%的MFU。

上下文长度扩展

为了扩展上下文窗口长度，研究者采用了两阶段方法。在预训练模型的基础上，他们额外训练了600亿个令牌，上下文窗口为32,768个令牌，并使用自适应基频技术将RoPE基频从100,000扩展到1,000,000。训练集由60%的长上下文数据和40%的高质量数据（序列长度最多4,096个令牌）构成。

四、后训练：使模型更加智能和易用

后训练阶段包括监督微调（SFT）、直接偏好优化（DPO）和可验证奖励的强化学习（RLVR）。虽然研究主要集中在多语言预训练上，但团队采用了这一成熟的开源后训练流程完成模型开发管道。

监督微调（SFT）

虽然主要利用Tulu 3的英语数据，但团队还补充了韩语、日语和中文的开源提示-响应对。他们使用以LLM作为评判的方法过滤响应，采用Qwen-2.5-72B对响应进行打分（0-5分制），只保留得分高于3的响应。最终SFT数据集包含约800,000个提示-响应对，且只对响应应用损失函数。他们利用模型合并技术，将三个使用不同随机种子训练的检查点组合，生成最终的SFT模型。

直接偏好优化（DPO）

SFT之后，模型通过集成约200,000对偏好（获胜）和非偏好（失败）响应的直接偏好优化进行精炼。团队提示模型生成在线策略响应，并将这些与Tülu 3离线策略响应配对。所选的胜-负对使用Qwen-2.5-72B作为奖励模型。为避免无意的长度偏差，他们仔细删除了长度显著不同的对。

可验证奖励的强化学习（RLVR）

最后，Trillion 7B在一组目标明确的10,000个提示上进行微调，主要是来自GSM8k和MATH训练集的数学问题。这一阶段使用通过群组相对策略优化（GRPO）实现的可验证反馈的强化学习。团队精心设计了数学推理和遵循指令能力的奖励函数，发现使用适当难度级别的问题和实施正确的系统提示是优化性能的关键因素。

五、评估：模型性能的全面测试

为了全面评估Trillion 7B的性能，研究团队在四种语言（英语、韩语、日语和中文）的27个基准测试上进行了测试，涵盖通用推理、知识、数学推理、编码和指令遵循任务。

评估结果显示，Trillion 7B在多种语言上表现出色，特别是在多语言聊天和指令遵循方面表现优异。在与其他同等规模的开源模型（如EXAONE-3.5-8B、Gemma-2-9B、Llama-3.1-8B、Qwen2.5-7B和Mistral-7B）相比，Trillion-7B展示了强大的竞争力。

特别值得注意的是，Trillion-7B在跨语言一致性测试中表现优异。研究者评估了模型在不同语言间的预测一致性，重点是英语知识是否能正确迁移到韩语。结果表明，Trillion-7B在所有一致性指标上都优于领先的多语言模型，证实了其强大的跨语言泛化能力。

此外，当将Trillion 7B扩展到视觉领域时，它也展示了出色的跨模态和跨语言能力。遵循LLaVA的方法，研究者将模型微调为视觉语言模型（VLM）。尽管仅在英语视觉-语言指令对上训练，该模型在韩语视觉推理任务上表现强劲，优于其他基于Vicuna和Mistral的VLM。这表明强大的多语言预训练能有效迁移到多模态任务，无需语言特定的视觉训练数据。

六、消融研究：深入了解模型设计决策

研究团队进行了多项消融实验，验证Trillion 7B训练配方的有效性：

数据组成和质量

实验证明，质量过滤策略对预训练阶段非常有效。通过仅提高韩语文档的质量（选择前50百分位），同时保持其他语言不变，所有语言的性能都得到了提升。

退火阶段实验进一步证实了质量过滤的关键作用，它显著提高了所有语言的性能。一个有趣的发现是，尽管英语数据量减少，但在"退火+质量+组成"条件下，英语性能有所提升，突显了第2节中讨论的跨语言知识桥接效应。

数据多样性影响

通过结合非英语多语言FineWeb数据集与内部韩语预训练数据，团队调查了多语言数据多样性的影响。实验表明，增强韩语数据集的多样性持续提升韩语特定基准的性能，并且确认了有效的多语言迁移，表现为其他语言性能的提高。

词汇表大小

研究者发现，对于韩语，使用较小的词汇表实际上可能更有益，这与增加语言特定词汇可以提高性能的既定知识相反。控制实验表明，虽然英语性能相对稳定，但韩语性能差异显著，最佳韩语词汇量位于1500到5000个令牌之间。

七、未来发展与局限性

尽管Trillion-7B取得了显著成就，但研究团队也坦诚地指出了当前模型的几个局限性：

数学和编码性能：由于研究主要集中在跨语言知识迁移上，团队在预训练期间为数学和编码数据分配的资源有限（不到总训练数据的2%）。因此，Trillion-7B在技术任务上可能表现不够理想。