近期DeepSeek在國內外受到廣泛關注,請詳細談談主要原因是什么?
近期DeepSeek在國內外受到廣泛關注,請詳細談談主要原因是什么?
劉知遠:這主要是因為DeepSeek最近發(fā)布的R1模型具有非常重要的價值。這種價值主要體現在其能夠復現OpenAI o1的深度推理能力。
因為OpenAI o1本身并沒有提供關于其實現細節(jié)的任何信息,OpenAI o1 相當于引爆了一顆原子彈,但沒有告訴大家秘方。而我們需要從頭開始,自己去尋找如何復現這種能力的方法。DeepSeek可能是全球首個能夠通過純粹的強化學習技術復現OpenAI o1能力的團隊,并且他們通過開源并發(fā)布相對詳細的介紹,為行業(yè)發(fā)展做出了重要貢獻。
DeepSeek -R1的整個訓練流程,有兩個非常重要的亮點或價值。
首先,DeepSeek R1創(chuàng)造性地基于DeepSeek V3基座模型,通過大規(guī)模強化學習技術,得到了一個純粹通過強化學習增強的強推理模型,即DeepSeek-R1-Zero。這具有非常重要的價值。因為,在歷史上幾乎沒有團隊能夠成功地將強化學習技術很好地應用于大規(guī)模模型上,并實現大規(guī)模訓練。
DeepSeek R1的第二個重要貢獻,在于其強化學習技術不僅局限于數學、算法代碼等容易提供獎勵信號的領域,還能創(chuàng)造性地將強化學習帶來的強推理能力泛化到其他領域。這也是用戶在實際使用DeepSeek- R1進行寫作等任務時,能夠感受到其強大的深度思考能力的原因。
綜上,DeepSeek -R1的貢獻體現在兩個方面:一是通過規(guī)則驅動的方法實現了大規(guī)模強化學習;二是通過深度推理SFT數據與通用SFT數據的混合微調,實現了推理能力的跨任務泛化。這使得DeepSeek -R1能夠成功復現OpenAI o1的推理水平。

而且,由于開源,DeepSeek -R1讓全世界意識到深度思考的威力。人工智能領域迎來了類似于2023年初的ChatGPT時刻。每個人感受到大模型的能力又往前邁進了一大步。
不過,我們也需要合理評估DeepSeek -R1的意義。它在歷史上更像是2023年Meta的LLaMA。

?