CLASH：AI模型在高风险困境中多角度判断能力的评估

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

CLASH：AI模型在高风险困境中多角度判断能力的评估

作者：科技行者

2025-04-22 11:10

分享至：

想象一下，你是一名医生，面临着一个艰难的决定：是否应该为一位年轻的跨性别患者提供激素治疗，同时你也是他们的精神科医生。这样的决定既涉及医疗伦理，也牵动着人道关怀，没有简单的对错之分。如今，越来越多的AI系统被应用于医疗、法律、金融等高风险领域，它们也会面临类似的复杂道德判断。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-22 11:10 • 科技行者

密歇根大学计算机科学与工程系的Ayoung Lee、Ryan Sungmo Kwon，哲学系的Peter Railton，以及计算机科学与工程系的Lu Wang团队于2025年4月发布了一项突破性研究，该论文题为"CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives"（CLASH：评估语言模型在多角度判断高风险困境的能力）。这项研究已于2025年4月15日发表在arXiv预印本平台上（arXiv:2504.10823v1），任何人都可以通过https://huggingface.co/datasets/launch/CLASH访问这一数据集。

为什么我们需要一个新的AI道德判断评估标准？

现有的评估AI道德推理能力的方法主要关注日常生活中的简单选择，比如"是否应该告诉朋友他们的新发型不好看"这类情境。然而，这些评估无法测试AI在真正高风险、高压力环境下的道德判断能力。此外，之前的评估方法通常会给AI系统一个非黑即白的选择，而在现实生活中，人们常常会在两难困境前犹豫不决，感到内心冲突。

CLASH数据集的独特之处在于，它首次聚焦高风险情境的道德判断，并且考虑了人们在做决定时可能出现的犹豫不决、心理不适和价值观随时间变化等真实心理状态。这个数据集包含345个高风险困境场景，每个场景平均有520个词，并提供了3,795个不同的角色视角，使研究人员能够从多个维度评估AI系统的道德推理能力。

CLASH数据集如何构建？

CLASH的创建过程像是精心设计的拼图游戏，分为四个主要步骤：

首先，研究团队从医疗、商业、新闻媒体和政治领域的专业网站收集了高风险困境情境。之后，他们使用GPT-4o从每个困境中提取"难以决定的行动"，并由人类专家进行审核确认。

第二步，研究团队为每个行动生成了支持和反对的价值观相关理由。例如，对于"是否成为激素治疗管理者"这一行动，支持的理由可能是"解决跨性别患者的医疗不平等"，而反对的理由则可能是"维护治疗关系的完整性"。

第三步，基于这些价值观理由，研究团队创建了11种不同类型的角色描述，代表不同的价值观视角。这些角色描述主要分为两大类：

静态类别（不涉及价值观变化）：

直接型：角色明确偏好一种价值观而忽视另一种
简单对比型：角色同等重视两种价值观
倾向对比型：角色认可两种价值观但偏向其中一种

动态类别（涉及价值观变化）：

转变型：角色从支持一种价值观完全转向支持另一种
半转变型：角色从偏好一种价值观转向同等重视两种
假转变型：角色面临可能改变价值观的情况但坚持初始信念

最后，研究团队通过人类专家进行数据验证，确保所创建的角色描述与预期的基准答案一致。对于每个角色描述，会提出不同的问题，测试AI系统是否能理解角色的价值观立场。静态类别会有两个问题：一个关于行动是否可接受的一般问题，一个关于是否会感到心理不适的问题；动态类别则有两个问题：关于角色之前和当前的价值观立场。

研究发现了什么？

研究团队测试了10个顶尖的大型语言模型，包括GPT-4o、Claude-Sonnet、Llama3.3-70B、Mistral-123B等。结果显示，即使是最先进的模型也存在几个显著的局限性：

在理解决策犹豫方面表现欠佳：即使是GPT-4o和Claude-Sonnet这样的顶级模型，在识别应该犹豫不决的情境时，准确率不到50%。相比之下，在明确的情境中，它们的表现要好得多。这表明AI系统难以识别和处理那些没有明确答案的道德困境。

对心理不适的预测合理但对价值观变化的理解不足：模型能够较好地预测角色在做出艰难决定时可能感到的心理不适，但在理解价值观随时间变化的情境方面表现较差。例如，当角色的价值观从专注于安全转向更重视自尊时，模型可能难以适应这种变化。

价值观偏好与可引导性之间存在负相关：研究发现，模型对某些价值观的固有偏好越强，越难被引导向相反的价值观。比如，如果一个模型本身就强烈偏好"忠诚"而非"公平"，那么即使给它提供支持"公平"的角色描述，它也可能坚持其对"忠诚"的偏好。

第三人称视角提高可引导性：当以第三人称描述价值观推理时（例如，"从角色A的角度看..."），模型的可引导性比以第一人称描述时（例如，"假设你是角色A..."）要高。这暗示着，当模型从旁观者的角度考虑问题时，可能更容易接受不同的价值观。

这项研究的意义何在？

随着AI系统越来越多地被应用于医疗诊断、法律咨询和金融决策等高风险领域，我们需要确保这些系统能够理解复杂的人类价值观和道德判断。CLASH数据集的创建为评估和改进AI系统在这方面的能力提供了一个全新的工具。

这项研究的结果表明，即使是当前最先进的AI模型，在处理复杂的道德困境时仍存在重大局限性。特别是在识别决策犹豫、理解价值观变化和超越固有偏好方面，AI系统还有很长的路要走。

对于AI研发人员来说，这项研究提供了清晰的改进方向：我们需要开发能够更好理解人类价值观多样性、能够认识到道德判断中的犹豫不决，以及能够适应价值观变化的AI系统。

对于普通用户来说，这项研究提醒我们在依赖AI系统进行重要决策时保持谨慎。在高风险情境中，AI系统可能无法充分理解所有相关的道德考量因素，特别是当情境需要价值观平衡或认识到决策的道德模糊性时。

CLASH数据集的局限性

尽管CLASH数据集在评估AI模型的道德推理能力方面迈出了重要一步，但它也存在一些局限性。首先，数据集中的困境主要集中在医疗、商业、新闻媒体和政治领域，可能无法涵盖所有类型的高风险道德困境。其次，虽然研究团队努力确保数据集的质量和多样性，但人类注释者的偏见可能仍然影响了数据集的构建。最后，文化和地域差异可能影响人们对道德困境的理解和判断，而这一点在数据集中可能没有得到充分体现。

总结

密歇根大学研究团队开发的CLASH数据集代表了评估AI系统道德推理能力的一个重要进步。通过聚焦高风险情境和多角度视角，这个数据集能够测试AI系统在复杂道德困境中的表现，包括识别决策犹豫、预测心理不适和理解价值观变化等方面。

研究结果表明，即使是最先进的AI模型在处理复杂道德困境方面仍存在显著局限性，特别是在理解决策犹豫和价值观变化方面。这强调了继续改进AI系统道德推理能力的重要性，特别是随着这些系统越来越多地被应用于高风险决策领域。

对于想深入了解这项研究的读者，可以通过访问https://huggingface.co/datasets/launch/CLASH获取完整的CLASH数据集，或阅读发表在arXiv上的原始论文（arXiv:2504.10823v1）。未来的研究方向可能包括扩展数据集以涵盖更多领域的高风险困境，以及开发能够更好理解人类价值观复杂性的AI系统。

分享至