50ドルで、1時間も経たない訓練されたChatGptに似たISS:Deepseekが生まれたのでしょうか?

スタンフォード大学とワシントン大学の研究者チームが最近新しいものを発表しました「S1」と呼ばれる推論のための人工知能モデル。このモデルは、先週公開された記事で報告されたものによると、予算が限られており、驚くほど短い時間で開発されたにもかかわらず、OpenIIモデルと競合することができます。たった26分です。
この結果を達成するために、研究者は「蒸留」として知られる手法を使用しました。これにより、より大きなモデルの知識を活用することで、より小さなIRSモデルを訓練できます。

ジェミニからの蒸留

この場合、S1はを使用して完成しましたGemini 2.0 Flash Thinking Experimentalの回答、Googleの推論モデル。 Googleの利用規約は、競合するモデルを開発するためにミツバチの使用を禁止していることに注意するのは興味深いことですが、Googleはまだこの問題についてコメントしていません。

DeepSeekロゴ

S1モデルは、Alibaba CloudのオープンソースモデルであるQWEN2.5に基づいており、1,000の質問のみで構成される比較的小さなデータセットを使用してトレーニングされました。研究者は、より広いデータセットの使用がモデルのパフォーマンスの大幅な改善につながらないことを発見しました。さらに、S1トレーニングには、このタイプのアクティビティでは比較的低いNVIDIA H100 GPUのみを使用する必要がありました。このプロジェクトに取り組んだスタンフォード大学の研究者であるニクラス・ムエンニグフは、約20ドルですべてを借りることができると言いました。

別のS1の開発に使用される重要な手法は、「テスト時間スケーリング」でした、回答を提供する前に、モデルがより長い期間情報を処理できるようになります。Nvidiaは、Deepseekが出てきたときにもそれについて話しました。実際には、研究者はモデルを「待機」という単語を追加することで、「待機」を追加することで「考える」ように導きました。これは、彼らによると、推論の正確さをもたらした方法です。

S1によって得られた結果は有望です。研究者によると、「最大27%の競争数学の質問に関するO1-PREVIEW(OpenAIモデル)モデルを上回る」モデル。それまでの間、それも理解する必要がありますDeepseekは蒸留によって本当に作成されましたそして、このタイプの発見が持つことができる法的影響。

どう思いますか?以下のコメントで教えてください。