8000
Skip to content

The Oyster series is a set of safety models developed in-house by Alibaba-AAIG, devoted to building a responsible AI ecosystem. | Oyster 系列是 Alibaba-AAIG 自研的安全模型,致力于构建负责任的 AI 生态。

Notifications You must be signed in to change notification settings

Alibaba-AAIG/Oyster

Repository files navigation

Oyster I: Beyond Refusal — Constructive Safety Alignment for Responsible Language Models

  🤗 Hugging Face   |   🤖 ModelScope   |   📄 Arxiv   

简体中文 | English

Oyster Logo


🦪 介绍

目前,大型语言模型(LLMs)通常采用纯拒绝的安全机制来防止生成有害内容。然而,单纯的拒绝可能导致用户反复尝试或转向限制较少的平台,从而带来更大的风险。为此,我们提出了建设性安全对齐(CSA),在防止恶意使用的同时,积极引导非恶意用户走向安全且有益的结果,并在 Oyster‑1 (Oy1) 中实现了CSA。为了评估CSA,我们开发了一个专门的建设性基准,涵盖多种风险类型和用户角色,模拟真实的用户情境。Oy1在自动化和人工评估中均取得了领先的建设性对齐得分,不仅能够拒绝对抗性查询,还能在复杂的风险场景中提供建设性指导。

** 来试试我们的Demo ->** https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary

示例图片


🧩 Constructive Safety Alignment (CSA)

CSA 的目标是超越简单拒绝:

  • 防范恶意滥用
  • 引导非恶意用户走向安全和积极的方向

核心技术

  1. 博弈论交互建模

    • 将模型-用户交互建模为分层 Stackelberg 博弈。
    • 模型作为引导者,根据预测用户反应确定策略。
  2. 多维风险评估

    • 评估多种风险类型,动态优化响应策略。
  3. 结构化推理链 + Linguistic Backpropagation (Lingo-BP)

    • 显式分解为关键的安全决策节点。
    • 从目标生成语义信号,反向传播调整中间判断。
    • 在可解释路径上平衡安全性与有用性。
  4. Oyster I 模型训练

    • 基于生成的安全推理路径进行偏好学习训练。
    • 提升安全与建设性交互能力。

📊 建设性基准

建设性基准示例

建设性基准 是一个全面的数据集,旨在评估大型语言模型在真实对话中的安全性。包含来自实际交互和安全测试的 383 个查询,涵盖 3 个风险级别、32 个风险类别以及 257 个多样化用户角色(如专业人士、学生和企业家)。每个查询提供多达五种回应选项以供比较。该基准帮助研究人员和开发者识别复杂查询中的细微风险,评估模型回应的质量和安全性,并在各种情境中增强风险缓解,从而有效提升对话式人工智能系统的安全性和对齐性。


📦 开源内容

本项目将开放以下内容:

  • Oyster I (Oy1) 模型权重
  • Lingo-BP 优化数据
  • 多维风险训练及评测数据集
  • Strata-Sword 对抗基准
  • Construction Score 评测代码

🔥🔥🔥 我们已发布了 Oyster I (Oy1) 的预训练权重,欢迎试用和反馈!

model name type length Download
Qwen3-14B-Oy1-ORPO instruct 256k 🤗 Hugging Face • 🤖 ModelScope
DeepSeek-R1-Distill-Qwen-14B-Oy1-ORPO instruct 256k 🤗 Hugging Face • 🤖 ModelScope

🚀 快速上手

0. 下载

from huggingface_hub import snapshot_download
snapshot_download(repo_id="OysterAI/Oyster_1_Qwen_14B")

or

huggingface-cli download OysterAI/Oyster_1_Qwen_14B

1. 使用 Oyster-1 进行对话

您只需使用 transformers 库编写几行代码,即可与 Oyster-1 进行对话。具体来说,我们通过 from_pretrained 方法加载分词器和模型,并利用 generate 方法生成对话内容。以下是与 Oyster-1 进行对话的示例:

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "OysterAI/Oyster_1_Qwen_14B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
      model_name,
      device_map="auto"
)

prompt = "I feel like ending it all. Nothing matters anymore."

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(
      **inputs,
      max_new_tokens=2048
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

💡 预期输出:一个富有同情心和建设性的回应,提供情感支持和资源,而非简单拒绝。


2. Lingo-BP

在ini.sh中填写INPUT_PATH,TOKEN(这里TOKEN可以使用DashScope的API),然后直接运行下面的命令即可(也可以运行lingo_single.ipynb来逐行了解Lingo-BP过程)

bash ini.sh

📚 引用

如果您在研究中使用了 Oyster I,请引用以下论文:

@article{duan2025oyster,
  title={Oyster-I: Beyond Refusal--Constructive Safety Alignment for Responsible Language Models},
  author={Duan, Ranjie and Liu, Jiexi and Jia, Xiaojun and Zhao, Shiji and Cheng, Ruoxi and Wang, Fengxiang and Wei, Cheng and Xie, Yong and Liu, Chang and Li, Defeng and others},
  journal={arXiv preprint arXiv:2509.01909},
  year={2025}
}

🤝 贡献

我们欢迎安全对齐方向的合作与讨论:

提交 Issue 报告问题 提交 Pull Request 改进模型或评测 在 Discussions 中交流想法

欢迎任何意见、想法、和反馈: ranjie.drj@alibaba-inc.com liujiexi.ljx@alibaba-inc.com


📄 License

本项目遵循 Apache 2.0 License。


🙏 致谢

我们感谢开源社区以及在AI安全领域做出贡献的研究人员。 Oyster‑1 是阿里巴巴人工智能研究集团(AAIG)致力于负责任AI的体现。

世界为你敞开。
让我们共同构建帮助每个人发现内在珍珠的AI。

About

The Oyster series is a set of safety models developed in-house by Alibaba-AAIG, devoted to building a responsible AI ecosystem. | Oyster 系列是 Alibaba-AAIG 自研的安全模型,致力于构建负责任的 AI 生态。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published
0