从零开始:DeepSeek-R1-Zero 的诞生。DeepSeek-R1-Zero 是该系列的第一个模型,它完全依赖于强化学习,而无需任何监督式微调(Supervised Fine-Tuning, SFT)。这一创新方法使得模型能够通过自我进化发展出强大的推理能力。在训练过程中,DeepSeek-R1-Zero 展示了许多令人惊叹的行为,例如自我验证、反思以及生成长链推理过程(Chain-of-Thought, CoT)。这些能力的出现标志着 AI 在推理任务上的巨大进步。
然而,DeepSeek-R1-Zero 也存在一些问题,例如可读性差和语言混合现象。这些问题限制了其在实际应用中的表现。尽管如此,DeepSeek-R1-Zero 的成功证明了强化学习在提升 AI 推理能力方面的巨大潜力,为后续研究奠定了基础。
进一步突破:DeepSeek-R1 的改进为了克服 DeepSeek-R1-Zero 的不足,DeepSeek 团队推出了 DeepSeek-R1。该模型在训练过程中引入了少量的冷启动数据(cold-start data),并通过多阶段训练流程进一步提升推理性能。具体来说,DeepSeek-R1 在强化学习的基础上,增加了监督式微调阶段,以解决语言混合和可读性问题。这一改进使得 DeepSeek-R1 在推理任务上的表现与 OpenAI 的 o1-1217 模型相当,甚至在某些基准测试中超越了后者。
DeepSeek-R1 的成功不仅在于其推理能力的提升,还在于其对推理模式的优化。通过冷启动数据和多阶段训练,DeepSeek-R1 能够更好地适应人类偏好,生成更清晰、更连贯的推理过程。这使得该模型在实际应用中更具优势。