大規模言語モデル(LLM)を研究開発するGPU800枚からなる計算基盤を構築

日本トップクラスの大規模言語モデル(LLM)を研究開発する計算基盤を、さくらインターネットのGPU対応クラウドサービス(高火力PHY)を用い販売、構築しました。

課題

大規模研究開発を支える環境

LLMの開発においては大量のGPUの確保及び安定稼働が重要となります。日本トップクラスのLLMということもあり、GPU H100 800枚でシステムを構築する必要がありました。また、GPUの障害が発生した際に、いち早く計算を復旧させるサポート体制も合わせて重要です。
さらに、チェックポイント書き込み用の高速ストレージ、モデル開発用のデータを保管する大容量ストレージと用途の異なるストレージの要求もありました。

解決策

さくらインターネットの演算基盤を活用

そこで、さくらインターネットのGPU対応クラウドサービス(高火力PHY)を活用し、800枚のGPU/100台のサーバを確保し構築を進めました。サポート体制はお客様、さくらインターネットと協議しコミュニケーションルールを整備、運用することにより、迅速な対応に努めました。
2種のストレージですが当時、さくらインターネットでは要求を満たすサービスは存在していなかったので、プラナスソリューションズにて、本件専用のサービスを立ち上げ、提供しました。これは、さくらインターネットグループである当社ならではの対応と言えます。

まとめ

本プロジェクトでは、お客様が求める高度な要件に応えるべく、さくらインターネットの大規模なGPUサービスを活用し、またサービスでは不足する部分をプラナスソリューションズにて補いLLM研究開発基盤を構築しました。
ご要件に応じたGPU環境の構築から運用まで、柔軟にサポートいたします。ご相談はお気軽にお問い合わせください。