はじめての方へ

Step9. クエリ実行

コマンドラインツールを用いたビッグデータ分析プラットフォーム「トレジャーデータサービス by IDCF」へのクエリの実行方法をご案内します。
事前に「Step5. コマンドラインツールでの操作(ログイン)」を行ってください。

 以下のデータ形式でのインポート方法をご案内します。

・ クエリ実行
・ PV取得クエリ

クエリ実行

コマンドラインツールを用いた「トレジャーデータサービス by IDCF」へのクエリの実行方法をご案内します。

1. クエリ実行

  $ td query -w \  # Jobが終了するまで待つことを指定します。
    -t hive \  # クエリのタイプを指定します。hive/prestoが指定可能です。
    -o /tmp/result.tsv \  # クエリ結果の出力先となるパスを指定します。
    -f tsv \  # クエリ結果のフォーマットを指定します。
    --column-header \  # 出力先にカラム名を出力する場合に指定します。
     -d DBNAME \  # クエリ対象のDB名を指定します。
    "SELECT * FROM TABLENAME"  # 実際に実行するクエリを指定します。

各クエリタイプで指定可能なクエリについては以下を参照してください。

- hive: https://docs.ybi.idcfcloud.net/categories/hive 
- presto: https://docs.ybi.idcfcloud.net/categories/presto 

PV取得クエリ

コマンドラインツールを用いた「トレジャーデータサービス by IDCF」のサンプルデータからPVを取得するクエリの実行方法をご案内します。

1. 対象データ
「トレジャーデータサービス by IDCF」のアカウント作成時にアクセス可能となる、sample_datasetsというDBにあるwww_accessというテーブルを利用します。
5000件のApacheのログとなります。

2. クエリ実行
以下のコマンドを実行することで各日付の全PageView数を取得することができます。

  $ td query -w \  # Jobが終了するまで待つことを指定します。
    -t hive \  # クエリのタイプを指定します。hive/prestoが指定可能です。
    -o /tmp/pv.tsv \  # クエリ結果の出力先となるパスを指定します。
    -f tsv \  # クエリ結果のフォーマットを指定します。
    --column-header \  # 出力先にカラム名を出力する場合に指定します。
    -d sample_datasets \  # クエリ対象のDB名を指定します。
    "SELECT TD_TIME_FORMAT(time, 'yyyy-MM-dd','JST') day ,count(1) pv \
    FROM www_access \
    GROUP BY TD_TIME_FORMAT(time, 'yyyy-MM-dd','JST')
    "  # 実際に実行するクエリを指定します。

3. 結果の確認

正常に終了していれば以下のように出力されます。

 「/tmp/pv.tsv」
 day pv 
 2014-10-07 1593
 2014-10-08 3407


次ページ

Step10. ResultExport

このページの先頭へ このページの先頭へ