バージョン: 3.15

ScalarDB Analytics を通じた分析クエリの実行

注記

このページは英語版のページが機械翻訳されたものです。英語版との間に矛盾または不一致がある場合は、英語版を正としてください。

このガイドでは、ScalarDB Analytics アプリケーションの開発方法について説明します。アーキテクチャと設計の詳細については、ScalarDB Analytics の設計を参照してください。

ScalarDB Analytics は現在、実行エンジンとして Spark を使用し、Spark カスタムカタログプラグインを提供することによって、ScalarDB で管理されているデータソースと管理されていないデータソースの統合ビューを Spark テーブルとして提供します。これにより、任意の Spark SQL クエリをシームレスに実行できます。

準備

このセクションでは、前提条件、ScalarDB Analytics セットアップのための Spark 設定、および ScalarDB Analytics 依存関係の追加について説明します。

前提条件

ScalarDB Analytics は Apache Spark 3.4以降で動作します。まだ Spark をインストールしていない場合は、Apache Spark のウェブサイトから Spark ディストリビューションをダウンロードしてください。

注記

Apache Spark は Scala 2.12 または Scala 2.13 でビルドされています。ScalarDB Analytics は両方のバージョンをサポートしています。後で適切なバージョンの ScalarDB Analytics を選択できるように、使用しているバージョンを確認してください。詳細については、バージョン互換性を参照してください。

ScalarDB Analytics のセットアップのための Spark 設定

以下のセクションでは、ScalarDB Analytics で利用可能なすべての設定オプションについて説明します。

ScalarDB Analytics の Spark との統合方法
データソースの接続とアクセス方法
ライセンス情報の提供方法

実践的なシナリオでの設定例については、サンプルアプリケーション設定を参照してください。

Spark プラグインの設定

設定キー名	必須	説明
`spark.jars.packages`	いいえ	必要な依存関係の Maven 座標をカンマ区切りで指定します。使用する ScalarDB Analytics パッケージを含める必要があります。含めない場合は、Spark アプリケーションの実行時にコマンドライン引数として指定します。ScalarDB Analytics の Maven 座標の詳細については、ScalarDB Analytics 依存関係の追加を参照してください。
`spark.sql.extensions`	はい	`com.scalar.db.analytics.spark.extension.ScalarDbAnalyticsExtensions` を設定する必要があります。
`spark.sql.catalog.<CATALOG_NAME>`	はい	`com.scalar.db.analytics.spark.ScalarDbAnalyticsCatalog` を設定する必要があります。

<CATALOG_NAME> には任意の名前を指定できます。設定全体で同じカタログ名を使用するようにしてください。

ライセンスの設定

設定キー名	必須	説明
`spark.sql.catalog.<CATALOG_NAME>.license.key`	はい	ScalarDB Analytics のライセンスキーの JSON 文字列
`spark.sql.catalog.<CATALOG_NAME>.license.cert_pem`	はい	ScalarDB Analytics ライセンスの PEM エンコードされた証明書の文字列。`cert_pem` または `cert_path` のいずれかを設定する必要があります。
`spark.sql.catalog.<CATALOG_NAME>.license.cert_path`	はい	ScalarDB Analytics ライセンスの PEM エンコードされた証明書へのパス。`cert_pem` または `cert_path` のいずれかを設定する必要があります。

データソースの設定

ScalarDB Analytics は複数のタイプのデータソースをサポートしています。各タイプには特定の設定パラメータが必要です:

注記

ScalarDB Analytics は ScalarDB をデータソースとしてサポートしています。この表では、ScalarDB をデータソースとして設定する方法について説明します。

設定キー名	必須	説明
`spark.sql.catalog.<CATALOG_NAME>.data_source.<DATA_SOURCE_NAME>.type`	はい	常に `scalardb` を設定します
`spark.sql.catalog.<CATALOG_NAME>.data_source.<DATA_SOURCE_NAME>.config_path`	はい	ScalarDB の設定ファイルへのパス

ヒント