こんにちは。
今回は、先日開催された Google Workspace Summit でも紹介された、Google Workspaceのコネクテッドシートについて解説したいと思います。
コネクテッドシートは、高価な分析ツールや高度な技術を不要とする、誰でも簡単に大量データを分析できる機能です。
本記事でメリットや使い方、注意点など詳しくご紹介いたします。
それではどうぞ。
これまでのデータ分析は、時間とコストがかかる
近年のデータベースツールの進化によって、「ビッグデータ」と呼ばれる何千万、何十億もの大量データの分析が行えるようになりました。大きな企業であれば、データ分析の専門チームを抱えているところもあり、大量データ分析が重要視されていることが伺えます。
しかし、このビッグデータを取り扱うには、高価な分析ツール(BIツールと呼ばれます)やSQL言語といった高度なデータ操作技術を必要とし、有益なデータを取り出すまでに時間やコストがかかることが一般的です。
図にすると、こんな感じです。
コネクテッドシートは、Googleスプレッドシートからデータを直接参照・分析できる機能
コネクテッドシートは、Googleのデータベースである「BigQuery」内のデータとGoogleスプレッドシートを繋いで、大量データを簡単に分析できる機能です。
Googleスプレッドシート上にデータが展開されるので、使い慣れたソートやフィルタ、グラフ、ピボットテーブルを使うことができます。
つまり、高価なBIツールの導入や、データ分析エンジニアにデータ抽出を依頼することなく、担当者自身で分析を行えるようになるのです。
また、データ分析までの時間が短縮されるので、経営層も迅速な意思決定を行えるようになり、さらに、データ分析チームもデータ抽出依頼が減るので、その他のより高度なデータ分析に集中できるようになります。
このように、コネクテッドシートは組織全体に大きなメリットをもたらします。
コネクテッドシートを使ってみよう
それでは、コネクテッドシートを実際に使ってみましょう。
なお、コネクテッドシートの基本的な機能はGoogle Workspace全てのエディションで利用できます。さらにGoogle Workspace Enterpriseエディションでは、管理、ガバナンス、可視化を強化した「エンタープライズ コネクテッドシート」が利用できるとの事です。
コネクテッドシートを試すには、BigQueryが内包されている、Google Cloud Platformの利用を開始する必要があります。Google Cloud Platformをご利用でない場合は、次の手順で利用を開始してください。(利用開始するだけであれば無料です。)すでに利用中であれば、次の章は読み飛ばしていただいて構いません。
Google Cloud Platformを利用開始する
Google Cloud Platformにアクセスし、「無料で開始」を押します。
会社の規模と利用規約を読んで「続行」ボタンを押します。
携帯の電話番号を入力し、「コードを送信」を押します。
SMSメールが届きますので、6桁の数字を入力して「確認」ボタンを押します。
アカウントの種類とクレジットカード番号、住所を入力します。無料トライアル後に課金をしない限り、自動で請求が来ることはありません。
以上で、Google Cloud Platformの利用登録が完了しました。Google Cloud Platformには様々な製品が含まれていますが、コネクテッドシートを試すだけであれば、いったんこの画面は閉じてOKです。
コネクテッドシートを使って公開データを見てみよう
それでは早速コネクテッドシートを使って、BigQueryの公開データを見てみましょう。
公開データとは、Googleトレンドやコロナウィルスの感染状況、犯罪件数、販売データ、地理情報などなど、一般に公開されているビッグデータです。BigQueryではこれらの公開データが内包されており、学習や研究などに活用できます。
Googleスプレッドシートを新規作成して、データ → データコネクタ → BigQueryに接続を選択します。
どのプロジェクトからでも見れますが、今回は、デフォルトで作成されている「My First Project」を選択します。
「公開データセット」を選択します。
公開データセットの中には、様々なデータセットがありますが、今回は「アイオワ州酒類販売データ」のデータを覗いてみましょう。このデータには、アメリカ合衆国アイオワ州で2012年1月1日以降に販売された酒類の日別、店舗、お酒の種類ごとの販売データが記録されています。
検索窓に「sales」を入力して「iowa_liquor_sales」を選択します。
「sales」テーブルを選択して「接続」ボタンを押します。
データが接続されました!「使用する」ボタンを押して、データを見てみましょう。2423万行あるようですね。
Googleスプレッドシートに新しいシート「sales」が作成され、コネクテッドシート専用のインターフェイスになっています。
すでにタイトル行は、フィルタがかけられるようになっており、すぐにグラフやピボットテーブルが作成できるボタンも配置されています。
デフォルトは、データの最初の500行が表示されています。
コネクテッドシートを使って集計してみよう
それではこのデータに対して、簡単な集計をしてみましょう。今回は全データに対して月ごとの売上を集計してみたいと思います。
集計する前に、月だけの列を作成しておきます。「計算された列」のボタンを押します。
「計算された列」とは、ある列を元に関数などを利用して別の値に変換した列の事です。今回は、販売日である「date」を元に「MONTH」関数を利用して、月の数字を「month」列という名前で追加します。
下記のように、計算された列の名前と式を入力し、「追加」ボタンを押します。
一番右に「month」列が追加されます。「適用」ボタンを押します。
列が追加されました!内容も日付の月数字が入っています。
それでは集計してみましょう。集計にはピボットテーブルを使います。「ピボットテーブル」ボタンを押します。
ピボットテーブルの作成ウィンドウが表示されます。新しいシートに作成したほうが良いかと思いますので「新しいシート」を選択して「作成」ボタンを押します。
今回は月ごとの売上なので、行に追加した「month」を、値に売上である「sale_dolloars」の合計(SUM)を指定し、適用を押します。今回は列は使いません。
なお、適用ボタンの隣に表示されているサイズは、クエリサイズですので、BigQueryの課金の参考になるかと思います。月1TBまでは無料です。
集計データが表示されました!12月が一番売上が多いようですね。
ちなみに、全件2000万行以上かつ、関数列を軸とした集計をしているのに数秒しかかかりませんでした。BigQueryの性能には毎度驚かされます。
コネクテッドシートの「更新スケジュール」機能を使って、BigQueryの最新データを自動的に再取得・再集計することもできます。ただし、大量データかつ短い期間で更新スケジュールを設定してしまうと、高額な料金が発生する可能性がありますのでご注意ください。
まとめ
コネクテッドシートを使えば、難しい知識なく大量データが簡単に分析できることがわかりました。
コネクテッドシートの強みは、使い慣れているスプレッドシートの知識がそのまま利用できる点にあると感じます。せっかく高価なBIツールを導入しても使い勝手が悪かったり、そもそも使い方が解らなかったりでは意味がありません。
また、カスタムクエリも利用できたので、エンジニアから見てもコネクテッドシートは便利なツールとして使えそうだと感じました。カスタムクエリを使えばより高度なデータ(2つのテーブルを結合するなど)分析も行なえます。
唯一、注意する点としてはBigQueryの利用料です。コネクテッドシートで接続したシートのやピボットテーブルを更新するとクエリ転送量がかかるので、分析には最低限のフィルタをかけるなど考慮したほうが良いでしょう。また、「更新スケジュール」で自動更新もできますが、正直これは使わずに都度更新したほうが良さそうです。
以上、Google Workspaceのコネクテッドシートについてご紹介しました。