「ディメンション」「メジャー」「キューブ」とは?
Excel では、「スプレッドシート」に数字や文字などのデータをいれますよね?
そして、スプレッドシート内のデータを集計したり、そのデータで図表を作るなどして情報をみます。
はじめにおなじみのスプレッドシートで考えます。
ディメンションとメジャー
例えば、「何月何日に、どの製品がどのくらい売れたか」という表を考えましょう。 すなわち「売上高」を表すスプレッドシートで、行に「日付」、列に「製品」という情報を並べます。
このような表を作ることで、何月何日にどれがどのくらい売れたか(どのくらいの売上高があったか)わかります。
この場合、縦軸が「日付」、横軸が「製品」という "切り口" で、「売上高」という情報をみていると言い換えられます。
このようなとき、情報をみるの切り口となる項目(ここでは「日付」と「製品」)のことを BI では ディメンション (dimension) といいます。
そして考察の対象のこと(ここでは「売上高」)を、メジャー (measure) といいます。
キューブとは?
では、もうひとつ売上高をみる切り口、すなわちディメンションを増やしてみましょう。
「何月何日に、どの製品が、どの営業担当者によって売れたか」ということを考えます。つまり、「日付毎」、「製品毎」というディメンションに加え、「営業担当者毎」というディメンションを追加します。
図にすると次のようになるでしょう。
これまで縦軸に「日付ディメンション」、横軸に「製品ディメンション」を描いていました。そしてここでさらに、「営業担当者ディメンション」を奥行きに描きました。
スプレッドシートは縦と横だけですが、ここでは奥行きも出てきて、立体的な表になりました。
BI ではこのようなデータの並びを一般的に、キューブ (cube) といいます。cube というのは立方体の意味ですね。ディメンションが二つのときは、 スプレッドシート形式で縦と横にデータを並べれば良かったのですが、情報を見る切り口(ディメンション)が増えると、キューブになる、というわけです。
ちなみに一般的に「ディメンションが0以上の個数あるデータ列をキューブという」のだそうですが、ディメンションが0個というのはデータ分析の意味がないので、 ディメンション、メジャーが定義されているデータ列をキューブであるといってよいでしょう。
また、多次元分析 (multi-dimensional analysis) というのは、要はディメンションが複数個あるときのデータ分析のことです。 ディメンションというのは、数学の言葉で言えば「次元」です。 言葉は仰々しいですが、意味的には複雑なことではありません。