微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 IberBench:面向伊比利亚语言的大语言模型评测框架

IberBench:面向伊比利亚语言的大语言模型评测框架

2025-04-28 12:19
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-28 12:19 科技行者

近日,由西班牙Symanto Research、Keepler Data Tech、瓦伦西亚理工大学以及联合国国际计算中心的研究团队共同发表了一篇重要论文,题为"IberBench: LLM Evaluation on Iberian Languages"(IberBench:面向伊比利亚语言的大语言模型评测)。该研究于2025年4月24日发表在arXiv预印本平台上(arXiv:2504.16921v1),为伊比利亚语言在人工智能时代的发展提供了重要支持。

想象一下,如果你只会说西班牙语或葡萄牙语,而市面上的AI助手主要针对英语用户优化,这种体验会是怎样的?就像走进一家五星级餐厅,却发现菜单上的美食都不适合你的口味。这正是IberBench项目要解决的问题——它为伊比利亚语系语言(如西班牙语、葡萄牙语、加泰罗尼亚语、巴斯克语和加利西亚语)的大语言模型评估提供了一个全面的测试平台。

为什么伊比利亚语言需要专门的评测框架?

尽管大语言模型(LLMs)已经在全球范围内掀起了革命性的变化,但它们的评估主要集中在英语上。这就像我们只用一种车型来评判所有道路的通行能力一样不全面。伊比利亚半岛及其文化影响范围内的语言使用者超过8亿人,但现有的测评体系很少关注这些语言的独特需求和语言变体。

当我们想知道模型A和模型B哪个在特定任务上表现更好时,现有的评估往往存在三个主要缺陷:首先,多语言覆盖不足,它们几乎只关注英语;其次,测试内容偏向基础语言能力而非产业实用场景;最后,测试数据集一成不变,无法适应不断发展的语言环境。

考虑到伊比利亚语言的丰富多样性,这种状况尤为突出。比如西班牙语不仅在西班牙使用,在墨西哥、秘鲁、古巴等多个国家都有不同的语言变体。这些不同变体间的细微差异就像不同口味的巧克力,虽然基本成分相似,但风味各异。

IberBench:一站式伊比利亚语言评测平台

IberBench项目就像是为伊比利亚语言量身定制的一套全面体检系统。研究团队不仅关注语言的基础能力测试(如阅读理解、常识推理),还特别注重实际应用场景(如情感分析、有害内容检测)。这些测试覆盖了伊比利亚半岛的西班牙语、葡萄牙语、加泰罗尼亚语、巴斯克语和加利西亚语,以及伊比利亚美洲的多种西班牙语变体,如墨西哥语、乌拉圭语、秘鲁语、哥斯达黎加语和古巴语。

IberBench的构建基于两大数据来源:一是从IberLEF、IberEval、TASS和PAN等工作坊收集的共享任务数据,这些工作坊是伊比利亚自然语言处理社区的重要交流平台;二是近期专为评估大语言模型而设计的通用基准测试集,如La Leaderboard和Latxa模型的评估套件等。这些数据共涵盖了101个数据集,分布在22个任务类别中。

整个IberBench框架由四个关键组件构成:首先是排行榜界面,用户可以查看不同模型的排名、图表和详细报告;其次是由学术界和工业界专家组成的委员会,负责关键决策,如评估哪些模型和纳入哪些新数据集;第三是数据集处理,包括收集、规范化和托管;最后是模型评估框架,基于lm-evaluation-harness工具并进行了定制扩展。

数据集:评测的基石

IberBench整合了101个数据集,这些数据集像拼图一样共同构成了一个全面的评测体系。团队从IberLEF、IberEval、TASS和PAN等工作坊收集了58个数据集,时间跨度从2014年到2024年。获取这些数据并非易事,团队需要联系每个共享任务的组织者获取授权,就像在图书馆中寻找散落各处的珍贵书籍一样。

这些数据集被分为两大类:70个产业相关的任务数据集和31个基础语言能力数据集。产业相关任务占总样本的74%,包括情感分析、有害内容检测、用户画像等企业实际应用场景;基础语言能力任务则占26%,包括阅读理解、常识推理等基础能力测试。

从语言分布看,西班牙语样本最多,占总数约60%,其次是巴斯克语和加泰罗尼亚语共占12%,加利西亚语数量最少,仅占4%。在西班牙语变体中,墨西哥语(6.0%)和西班牙本土语(0.6%)表现较为突出,但大多数样本被标记为"不确定"变体(49.5%),可能包含多种混合变体。

数据准备过程非常细致,团队开发了自定义规范化管道来处理各种格式的数据,包括Excel表格、CSV文件、HuggingFace数据集和纯文本。对于序列标注任务(如命名实体识别),团队还设计了特殊的注释模式,使模型能够正确输出带标签的文本。

模型评估:公平客观的比较

IberBench评估了23个模型,参数规模从1亿到140亿不等。这些模型包括三类:第一类是不专注于伊比利亚语言但在英语上接近最先进水平的多语言模型,如phi-4、Llama 3.1/3.2系列、Qwen 2.5系列和Mistral-7B;第二类是从头预训练且关注大多数伊比利亚语言的模型,如Salamandra和EuroLLM系列;第三类是通过适应现有多语言模型训练的模型,如专注于西班牙语的RigoChat-7b-v2、巴斯克语的Latxa-Llama-3.1-8B-Instruct、加泰罗尼亚语的CataLlama-v0.2-Instruct-SFT等。

评估采用零样本设置,即不提供任何上下文示例。虽然少样本学习可能提高性能,但由于示例选择、质量、排序等因素的影响尚未定论,加上实际产业场景中获取真实示例困难,团队选择零样本评估方式以保持一致性。唯一的例外是序列标注任务,由于需要指导模型正确格式化输出序列,使用了三个示例。

对于分类任务,评估使用宏F1分数以减轻测试集中标签不平衡的影响;对于生成任务,采用ROUGE-1来衡量生成输出与参考文本的单元重叠程度;对于序列标注任务,使用seqeval库计算F1分数。为了对比模型与随机基线的差异,研究还设置了随机基线:分类任务随机分配标签,生成任务随机选择两个句子拼接,序列标注任务随机打乱参考标签序列。

评估结果:关键发现

评估结果揭示了几个关键发现。首先,在总体表现上,Qwen-2.5系列模型表现最佳,Qwen-2.5-7b-Instruct以46.8%的平均分数领先,其次是RigoChat-7b-v2(46.7%)和Qwen-2.5-3b-Instruct(45.9%)。参数量在3.1至10亿之间的模型普遍表现较好,而小于3亿或大于10亿的模型(如phi-4,14亿参数)相对表现较差。

有趣的是,为单一语言优化的模型在其他伊比利亚语言上表现可能下降。例如,为巴斯克语优化的Latxa-Llama-3.1-8B-Instruct在巴斯克语上表现优于原始的Llama-3.1-8b-Instruct,但在其他语言中表现较差,显示出"灾难性遗忘"现象。而专注于西班牙语的RigoChat-7b-v2则没有表现出这种现象。

另一重要发现是模型在产业相关任务上表现显著差于基础语言任务。基础任务中表现最好的是常识推理、问答、阅读理解和文本蕴含,这些也是现有基准测试中的主要内容;而产业相关任务中表现较差的包括意图分类、立场检测、作者画像和机器生成文本检测。这显示了现有模型在实际应用场景中仍有很大提升空间。

在语言方面,加利西亚语和巴斯克语是最具挑战性的。虽然在加泰罗尼亚语、葡萄牙语和西班牙语上,许多模型显著优于随机基线,但在加利西亚语上只有34%的模型超过基线,巴斯克语上仅有三个模型勉强超过基线。这可能归因于任务难度在语言间的不平衡、语言特性差异以及训练资源的不均衡分布。

在西班牙语变体中,研究识别出两组不同类型:一组是分布较窄、中位数较低且有许多异常值的变体,如秘鲁语、哥斯达黎加语和乌拉圭语;另一组是分布较广、中位数较高且无异常值的变体,如古巴语、墨西哥语和西班牙本土语。有趣的是,古巴语和西班牙本土语是仅有的两个中位数未超过基线的变体。

与现有最佳结果相比,大语言模型在零样本设置下仍落后于经过数千个示例微调的专用模型。例如,在情感分析和情绪检测任务上,最佳大语言模型达到48.83%,而已发表的最佳结果为61.87%。在幽默检测上,差距是72.67%对84.26%。不过在某些任务上,如假新闻检测(75.04%对76.66%)和精神健康检测(62.32%对68.76%),差距已经缩小。

IberBench的意义与贡献

IberBench项目为伊比利亚语言的大语言模型评估提供了全面的基础设施,涵盖从数据处理到增量评估的整个流程。研究团队的主要贡献包括:首先,构建了一个涵盖101个数据集的综合基准测试,横跨基础和产业相关的自然语言处理任务,拓宽了伊比利亚语言大语言模型评估的范围;其次,设计了具有可扩展性、可扩展性和可重现性的框架,可无缝集成新的数据集、语言变体和模型;第三,收集和标准化了58个来自伊比利亚语言工作坊的数据集,使其易于获取;最后,评估了多语言和特定语言的模型,提供了对伊比利亚语言多样性背景下模型性能的深入见解。

这项工作面临的主要局限包括数据的不均衡分布、评估方法的局限性以及计算资源的限制。未来的研究方向可能包括扩展到更多语言变体(如阿根廷西班牙语或巴西葡萄牙语)、增加序列标注和生成任务的比例,以及评估更大规模的模型和闭源模型。

总结

IberBench为伊比利亚语言在人工智能时代的发展提供了重要工具。通过全面评估大语言模型在这些语言上的表现,研究不仅发现了现有模型的优缺点,还为未来的模型开发提供了方向指引。特别是在产业相关任务上的评估结果,揭示了大语言模型在实际应用场景中仍有很大提升空间。正如作者所言,IberBench将持续发展,纳入新的数据集和模型,为伊比利亚语言社区提供日益完善的评测平台。

对于关注多语言人工智能发展的研究者、开发者和用户来说,IberBench提供了宝贵的资源和见解,有助于构建更加包容、公平的人工智能生态系统,使全球各种语言的使用者都能平等地享受人工智能技术带来的便利。

有兴趣深入了解IberBench的读者可以访问项目网站(https://huggingface.co/spaces/iberbench/leaderboard)或查阅原论文(arXiv:2504.16921)获取更多详细信息。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-