“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

2024-12-26 14:57 312评论

IT之家 12 月 25 日新闻，OpenAI 的研讨职员提出了一种名为“沉思熟虑的对齐”（Deliberative Alignment）的新方式，以晋升 AI 模子保险性，并已在 o 系列模子中获得明显功效。名目配景怎样确保年夜言语模子（LLMs）遵照明白的品德跟保险原则，现在存在诸多挑衅。监视微调（SFT）跟来自人类反应的强化进修（RLHF）等现有对齐技巧都存在范围性，有被把持的危险，可能会发生无害内容、谢绝正当恳求或难以处置不熟习的场景等成绩。这些成绩平日源于以后保险培训的弊病，也就是模子从数据直接揣摸尺度，而非明白地进修，平日缺少斟酌庞杂提醒的才能，从而限度了它们在奥妙或抗衡性格况下的无效性。沉思熟虑的对齐（Deliberative Alignment）IT之家注：该方式直接教学模子保险标准，并练习它们在天生呼应之前推理这些原则进，将保险准则融入推理进程中。全部进程分为两个阶段，第一阶段，监视微调（SFT）练习模子参考并推理保险标准，应用从基本模子天生的数据集。第二阶段，强化进修（RL）应用嘉奖模子，依据保险基准评价机能，进一步完美模子的推理。差别于依附人工标注数据的方式，“沉思熟虑的对齐”应用模子天生的数据跟头脑链（CoT）推理，下降了保险练习的资本需要。OpenAI 的 o1 模子已安排该技巧，在抵御逃狱提醒方面表示杰出，在 StrongREJECT 基准测试中得分为 0.88，明显高于 GPT-4o 的 0.37；别的该技巧还能够增加误拒，在 XSTest 数据集的良性提醒中，o1 模子的正确率高达 93%。“沉思熟虑的对齐”经由过程练习模子明白推理保险战略，它为庞杂的伦理挑衅供给了可扩大且可说明的处理计划。参考Deliberative Alignment: Reasoning Enables Safer Language Models告白申明：文内含有的对外跳转链接（包含不限于超链接、二维码、口令等情势），用于通报更多信息，节俭甄选时光，成果仅供参考，IT之家全部文章均包括本申明。 ]article_adlist--> 　　申明：新浪网独家稿件，未经受权制止转载。 -->

请尊重我们的辛苦付出，未经允许，请不要转载九州体育娱乐_bet9九州平台的文章！

九州体育娱乐_bet9九州平台

相关文章