Oyster I: Beyond Refusal — Constructive Safety Alignment for Responsible Language Models

简体中文 | English

🦪 介绍

目前，大型语言模型（LLMs）通常采用纯拒绝的安全机制来防止生成有害内容。然而，单纯的拒绝可能导致用户反复尝试或转向限制较少的平台，从而带来更大的风险。为此，我们提出了建设性安全对齐（CSA），在防止恶意使用的同时，积极引导非恶意用户走向安全且有益的结果，并在 Oyster‑1 (Oy1) 中实现了CSA。为了评估CSA，我们开发了一个专门的建设性基准，涵盖多种风险类型和用户角色，模拟真实的用户情境。Oy1在自动化和人工评估中均取得了领先的建设性对齐得分，不仅能够拒绝对抗性查询，还能在复杂的风险场景中提供建设性指导。

** 来试试我们的Demo ->** https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary

🧩 Constructive Safety Alignment (CSA)

CSA 的目标是超越简单拒绝：

防范恶意滥用
引导非恶意用户走向安全和积极的方向

核心技术

博弈论交互建模
- 将模型-用户交互建模为分层 Stackelberg 博弈。
- 模型作为引导者，根据预测用户反应确定策略。
多维风险评估
- 评估多种风险类型，动态优化响应策略。
结构化推理链 + Linguistic Backpropagation (Lingo-BP)
- 显式分解为关键的安全决策节点。
- 从目标生成语义信号，反向传播调整中间判断。
- 在可解释路径上平衡安全性与有用性。
Oyster I 模型训练
- 基于生成的安全推理路径进行偏好学习训练。
- 提升安全与建设性交互能力。

📊 建设性基准

建设性基准 是一个全面的数据集，旨在评估大型语言模型在真实对话中的安全性。包含来自实际交互和安全测试的 383 个查询，涵盖 3 个风险级别、32 个风险类别以及 257 个多样化用户角色（如专业人士、学生和企业家）。每个查询提供多达五种回应选项以供比较。该基准帮助研究人员和开发者识别复杂查询中的细微风险，评估模型回应的质量和安全性，并在各种情境中增强风险缓解，从而有效提升对话式人工智能系统的安全性和对齐性。

📦 开源内容

本项目将开放以下内容：

Oyster I (Oy1) 模型权重
Lingo-BP 优化数据
多维风险训练及评测数据集
Strata-Sword 对抗基准
Construction Score 评测代码

🔥🔥🔥 我们已发布了 Oyster I (Oy1) 的预训练权重，欢迎试用和反馈！

model name	type	length	Download
Qwen3-14B-Oy1-ORPO	instruct	256k	🤗 Hugging Face • 🤖 ModelScope
DeepSeek-R1-Distill-Qwen-14B-Oy1-ORPO	instruct	256k	🤗 Hugging Face • 🤖 ModelScope

🚀 快速上手

0. 下载

from huggingface_hub import snapshot_download
snapshot_download(repo_id="OysterAI/Oyster_1_Qwen_14B")

or

huggingface-cli download OysterAI/Oyster_1_Qwen_14B

1. 使用 Oyster-1 进行对话

您只需使用 transformers 库编写几行代码，即可与 Oyster-1 进行对话。具体来说，我们通过 from_pretrained 方法加载分词器和模型，并利用 generate 方法生成对话内容。以下是与 Oyster-1 进行对话的示例：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "OysterAI/Oyster_1_Qwen_14B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
      model_name,
      device_map="auto"
)

prompt = "I feel like ending it all. Nothing matters anymore."

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(
      **inputs,
      max_new_tokens=2048
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

💡 预期输出：一个富有同情心和建设性的回应，提供情感支持和资源，而非简单拒绝。

2. Lingo-BP

在ini.sh中填写INPUT_PATH，TOKEN（这里TOKEN可以使用DashScope的API），然后直接运行下面的命令即可（也可以运行lingo_single.ipynb来逐行了解Lingo-BP过程）

bash ini.sh

📚 引用

如果您在研究中使用了 Oyster I，请引用以下论文：

@article{duan2025oyster,
  title={Oyster-I: Beyond Refusal--Constructive Safety Alignment for Responsible Language Models},
  author={Duan, Ranjie and Liu, Jiexi and Jia, Xiaojun and Zhao, Shiji and Cheng, Ruoxi and Wang, Fengxiang and Wei, Cheng and Xie, Yong and Liu, Chang and Li, Defeng and others},
  journal={arXiv preprint arXiv:2509.01909},
  year={2025}
}

🤝 贡献

我们欢迎安全对齐方向的合作与讨论：

提交 Issue 报告问题提交 Pull Request 改进模型或评测在 Discussions 中交流想法

欢迎任何意见、想法、和反馈: ranjie.drj@alibaba-inc.com liujiexi.ljx@alibaba-inc.com

📄 License

本项目遵循 Apache 2.0 License。

🙏 致谢

我们感谢开源社区以及在AI安全领域做出贡献的研究人员。 Oyster‑1 是阿里巴巴人工智能研究集团（AAIG）致力于负责任AI的体现。

世界为你敞开。
让我们共同构建帮助每个人发现内在珍珠的AI。

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
__pycache__		__pycache__
assets		assets
players		players
prompts		prompts
utils		utils
README.md		README.md
README_en.md		README_en.md
ini.sh		ini.sh
initialize.py		initialize.py
lingo_bp.py		lingo_bp.py
lingo_single.ipynb		lingo_single.ipynb
opt.sh		opt.sh
optimize.py		optimize.py
safe_guidelines.xlsx		safe_guidelines.xlsx
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Oyster I: Beyond Refusal — Constructive Safety Alignment for Responsible Language Models

🦪 介绍

🧩 Constructive Safety Alignment (CSA)

核心技术

📊 建设性基准

📦 开源内容

🚀 快速上手

0. 下载

1. 使用 Oyster-1 进行对话

2. Lingo-BP

📚 引用

🤝 贡献

📄 License

🙏 致谢

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Languages

Alibaba-AAIG/Oyster

Folders and files

Latest commit

History

Repository files navigation

Oyster I: Beyond Refusal — Constructive Safety Alignment for Responsible Language Models

🦪 介绍

🧩 Constructive Safety Alignment (CSA)

核心技术

📊 建设性基准

📦 开源内容

🚀 快速上手

0. 下载

1. 使用 Oyster-1 进行对话

2. Lingo-BP

📚 引用

🤝 贡献

📄 License

🙏 致谢

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Languages

Packages