データ分析(帳票)
統計の基礎
- ・統計における基礎的な事柄を簡単にご説明します。
- ・経営戦略と組織管理を考えるにあたって、一部、統計的な手法を利用しております。
- ・特に多変量解析の理解を深めたい方はご参照ください。
- ・不明点あれば問い合わせください。
- ※当サイトで掲載しているデータは適当に作成したものであり、実際のものではありません。
量的変数と質的変数
変数には大別して、量的変数と質的変数があります。
概ね、量的変数は数字で、質的変数は文字で表現されます。
よって、量的変数は計算することができますが、質的変数では区別することしかできません。
さらに変数を細かく分類すると、以下の4種類に分かれます。
名義尺度:
区別するだけの変数
質的変数に属する
例えば、性別や住所など
順序尺度:
順序や大小に意味のある変数
差に意味はなく、よって計算することはできない
質的変数に属する
例えば、「満足・どちらでもない・不満」や「1級・2級・3級」など
間隔尺度:
差に意味があり、計算できる変数
ただし意味があるのは差だけで、比には意味がない
量的変数に属する
例えば、温度(摂氏)や西暦など
※10℃と20℃は10℃の差があるが、決して2倍ではない
比例尺度:
原点があり、差と比に意味がある変数
量的変数に属する
例えば、速度や値段など
データ分析する際は変数の尺度を意識しておかないと、まったく意味のない計算をしてしまいかねません。
また分析手法によっては、利用可能な尺度に違いがあり、注意が必要です。
基本統計量
私たちが日常で何気なく利用している「合計」や「平均」といった数値は、実は統計量の一つです。
統計量とは、統計で利用される、データの特徴を要約した量のことです。
その中でも特に基本的な統計量を基本統計量と言います。
言葉のままです。
以下に、広く知られている基本統計量をいくつか列挙します。
データ数: データの数
合計: 総和
平均: 合計 ÷ データ数
最大: 最も大きい値
最小: 最も小さい値
レンジ: 最大 - 最小
中央値: 整列した際に中央に位置する値
最頻値: 最も出現頻度の高い値
偏差: 平均からの差分
偏差平方和: 偏差の2乗の総和
分散: 偏差平方和 ÷ データ数
標準偏差: 分散の平方根
日常では「合計」と「平均」をよく利用しますが、統計では「平均」と「分散」をよく利用します。
分散はあまり馴染みのない指標かもしれませんが、統計において分散は必須です。
というのも、統計とはバラつきを扱う学問で、バラつきは分散で表現されるからです。
統計において最も重要な指標と言っても過言ではないでしょう。
ただし分散は2乗した値であり、次元を合わせるためにも、分散の平方根である標準偏差がよく利用されています。
ここでは分散で説明します。
ここで、リスクとは曖昧さであり、曖昧さとはバラつきです。
そしてバラつきは分散として計算されます。
よって、リスクは分散で取り扱うことができます。
ただし、分散には標本分散と不偏分散があります。
前者は標本における分散で、後者は母集団における分散です。
概ね、統計では不偏分散を利用し、経営では標本分散を利用します。
および、分散を取り扱うにあたって、分散が無単位の量であることに注意しなければなりません。
このことから、分散は、バラつきが大きいかどうかを単純に比較するための指標として順序尺度のように利用します。
確率分布
確率分布とは、データのバラつきを表現した分布です。
バラつけばバラつくほど分布は平らな形になっていきます。
逆にバラつきが少なければ、データは一点に集中するため、分布は尖りのある形になっていきます。
そして、確率分布を表現する関数が確率密度関数です。
確率密度関数とは、確率変数を引数として確率を返却する関数です。
確率分布を確率密度関数でモデリングできれば、確率変数から確率を計算できるようになります。
以下に、広く知られている確率分布(確率密度関数)をいくつか列挙します。
正規分布: 平均値を中心に分散に応じて左右対称に分布する普遍的な分布
t分布: 正規分布に準じる形で自由度に応じて変形する分布
カイ二乗分布: 正規分布に従う確率変数の平方和を確率変数とする分布
二項分布: ベルヌーイ試行における成功回数を確率変数とする分布
ポアソン分布: 所定の時間内に現象が発生する回数を確率変数とする分布
正規分布は至る所で現れる分布であり、ビジネスの現場でも用いられています。
中心極限定理を根拠に、正規分布でモデリングし問題解決を図ることは多々あります。
対してt分布は、正規分布に準じる形で、平均や分散は同一のまま自由度にのみ応じて分布が変形するという特徴があります。
これにより、サンプル数が少ない場合でも正規分布を利用できるようになります。
そのため、検定を実施する場合は、正規分布による検定(z検定)ではなくt分布による検定(t検定)が一般的に用いられます。
これらどの分布においても、確率密度関数の引数は確率変数で返却値は確率です。
例えば正規分布では平均で返却値が最大となり、つまり平均が最も発生しやすい確率変数ということになります。
また分布の面積は累積確率であり、該当する確率変数がどれか一つでも発生する確率を表します。
よって事象が発生する確率は、確率密度関数を確率変数の区間で定積分することで求められます。
ただし面積は確率である以上、全区間で定積分しても1以上にはなりません(1になります)。
データ分析・解析
確率・統計に基づきデータを分析する手法が数多く考案されてきました。
人間がデータ分析すると、その都度その都度、結果が変わってしまうことが多々あります。
対して、コンピュータで機械的に解析した場合は、常に同様な結果を得ることができます。
いつ誰が実施しても同じような結果になるのです。
以下に、広く知られている分析の手法をいくつか列挙します。
ABC分析: 分析対象をクラスA・クラスB・クラスCに分類する分析手法
アソシエーション分析: 分析対象となる要素同士の関連に着目した分析手法
バスケット分析: バスケット単位のデータ(伝票単位のデータ)に着目した分析手法の総称
クラスタ分析: 分析対象を似通ったクラスタに分類する分析手法の総称
回帰分析: 尤もらしい近似関数を導出する分析手法
コンジョイント分析: 膨大な組み合わせから望ましい組み合わせを効率良く特定する分析手法
こうした分析の手法は経営や商売においても重宝します。
例えば、データ分析の手法が確立できていれば、経験や勘に依存した判断から脱却することができます。
所定の手順を定めておくことにより、誰が分析を実施しても似たような結果を得ることができるようになります。
それは人に依存しないということであり、つまり、業務の設計が容易になるということです。
また、ノウハウをアウトプットできることから、後任の担当者への引継ぎや教育も容易になります。
このように判断や管理において統計は役に立ちます。
そうして、統計が発展したものの一つが多変量解析です。
多変量解析とは、多変量を取り扱うデータ解析の手法の総称です。
近年では、マーケティングにおいてもビッグデータの解析が取り上げられ、AIや量子コンピュータが投入されています。
その際、アルゴリズムとして多変量解析が利用されています。
多変量解析することでデータを「予測」「判別」「要約」「分類」することができます。
集客や企画を検討するにあたって、顧客の分類や売上の予測は必要不可欠であり、経営戦略の立案において多変量解析は有効な手段となっています。