NVIDIA、「Spark 3.0」にGPUアクセラレーションを提供–機械学習やデータ処理を高速化

引用元:ZDNet Japan
NVIDIA、「Spark 3.0」にGPUアクセラレーションを提供--機械学習やデータ処理を高速化

 NVIDIAは米国時間5月14日、同社の年次イベント「GPU Technology Conference」で、次世代GPUアーキテクチャー「NVIDIA Ampere」とAmpereベースのGPU「A100」を発表した。同社によると、Ampere GPUは従来の「NVIDIA Volta」アーキテクチャーと比べて20倍の性能を提供する。Volta GPU自体、これまでのCPUよりもAI(人工知能)ワークロードの処理を大幅に高速化していた。

 NVIDIAはまた、「Apache Spark 3.0」向けに新しいGPUアクセラレーション機能を発表した。リリースは晩春を予定している。

 GPUアクセラレーション機能は、オープソースのソフトウェアライブラリー「RAPIDS」を基盤とし、RAPIDS自体は「CUDA-X AI」上に構築されている。このアクセラレーション技術は「RAPIDS Accelerator for Apache Spark」という名称で、NVIDIAとDatabricksが共同開発した。開発者は自身のSparkコードを修正することなく、CPUの代わりにGPUで実行できる。これにより、機械学習モデルのトレーニング時間を大幅に短縮できる。新しいAmpere GPUを搭載したハードウェアならば、NVIDIA Volta搭載ハードウェアよりもトーレニングや推論、スコアリングを5倍高速に行えるといい、その違いは歴然だろう。

 トレーニングが高速化すれば、より多くのトレーニングデータを扱えるようになり、人工知能の精度を向上できる。さらに、NVIDIAによると、RAPIDSアクセラレーターは「Spark SQL」と「DataFrame」の処理性能も飛躍的に改善するため、GPUアクセラレーションはAI以外のワークロードにも恩恵をもたらすという。つまり、同じSparkクラスターハードウェアを使用して、データエンジニアリングとETL(抽出・変換・ロード)の両方のワークロードに加え、機械学習のジョブも行えるようになる。

 AIワークロード専用に個別のSparkクラスターを配備する必要がなくなり、ロード、処理、トレーニング、テストという一連の作業を単一クラスター上で単一ジョブとして実行できる。NVIDIAによると、RAPIDSアクセラレーターは、Sparkクラスター内におけるノード間のデータ転送性能も高速化する。これは、GPUメモリー間でデータを直接転送する「Unified Communication X」(UCX)フレームワークを活用することで実現している。

 RAPIDSアクセラレーターはオープソースのApache Spark向けに設計されているため、Databricksのプラットフォームだけでなく、主要なパブリッククラウドプロバイダーが提供する機械学習プラットフォームのユーザーも恩恵を受けられる。NVIDIAのJensen Huang最高経営責任者(CEO)は、報道関係者に行ったブリーフィングで、「Azure Machine Learning」や「Amazon SageMaker」上でSparkクラスターを運用するユーザーもGPUアクセラレーションを活用できると述べた。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

 本記事・サイトは一人でも多くの方に最新のニュースをご覧頂けるように、元ニュース記事へのご案内をしております。
また、本記事・サイトは元ニュースの全記事内容が引用されている訳ではなく著作権法・その他を厳守しております。

フォローする