決定係数とはなにを決定しているのか

第三章の決定係数について。変数間の相関の強さを表す指標が相関係数r。その相関係数の二乗r^2は決定係数とも呼ばれる*1。さてこの決定係数r^2は一体何を『決定』しているのか。結論から言うと、決定係数r^2は二変数のデータ群(xi,yi)を直線で回帰した時に、説明変数xで従属変数yをどれくらい説明できるのか(=決定できるか)の指標である。回帰の当てはまり具合・回帰の効果を表すといってもよい。

一歩ステップバックして回帰直線を求めたやり方に戻る。(x1,y1), (x2,y2), ..., (xi,yi),....(xn,yn)というデータをy=ax+bという直線で回帰することを考えると、(ほとんどの場合)全てのデータが直線上にピッタリ乗ることはなく、直線と各データポイントとの間には差が残る(残差)。この残差の距離(の二乗和)を最小にするようなa, bを求めるのが最小二乗法による回帰だ。ここでmをyiの平均値とすると

残差平方和=(1-r^2)*Σ(yi-m)^2

が成り立つ。右辺のΣ(yi-m)^2というのは回帰する前の被説明変数yのバラツキを表していると考えてよい*2。一方左辺の残差平方和は回帰後の(回帰直線と元データの間の)バラツキを表している。つまり回帰後のバラツキは回帰前のバラツキの(1-r^2)倍になるということ。言い換えると、回帰によるバラツキの減少幅は回帰前のバラツキのr^2倍になるということに他ならない。
ここで-1<=r<=1だから0<=r^2<=1。つまりr=1の時に(1-r^2)=0となり、このとき残差平方和は0。つまり、全てのデータが回帰直線上に有り、yがxによって100%説明可能だということを意味する*3

一方r=0のときは(1-r^2)=1、(残差平方和)=(被説明変数の回帰前のバラツキ)となる。つまり求めた回帰直線では全くバラツキを減らせず、ax+bではyを説明できていないということ。例えば二次関数は左右対称な分布をしているために相関係数*4はゼロなのだけれども、エクセルで機械的に回帰直線を当てはめることはできてしまう。エクセルに計算させると傾き0、y切片がyの平均値の直線が最小二乗法で自動的に得られる*5。しかし、この回帰直線は全くもとのデータに当てはまらず、r^2=0である。なお回帰直線自体がyの平均値なのだから、残差(yi-m)の平方和が被説明変数の回帰前のバラツキと一致するのは当たり前である。回帰によってまったくバラツキを減らすことができないということはその回帰で得られた式が全く無意味ということ。

というわけで、r^2というのは回帰をした場合に回帰直線によってxがyの変動を何割説明しうるか(残りの部分はxでは説明しきれていない部分)を示す数字である。次の三つの場合をみると決定係数が高いものの方がyをxによって説明できていることは一目瞭然。


なお二次関数の例の場合、そもそも直線で回帰しようというのがおかしいわけで、多項式で回帰してみるとエクセルによれば決定係数=1となる。決定係数の概念を考えてみれば当たり前なのだけれども、ここでの決定係数は直線回帰の場合と違って相関係数の二乗の値ではありえない。このへんの数式の定義は要フォローアップ。

さて、そもそもなぜ角がこみの中の式が成り立つのかというのを理解しておきたいところ。とくに重要なのは『各yiとyの平均mの距離』をxiに対応する回帰直線上の点^yiで二分割しyi-m=(^y-m)+(yi-^y)として考えるところだ。はじめの項は回帰直線によって説明できる部分、次の項は回帰直線では説明できない残差となる。回帰直線の定義をもとに運算すると、右辺第一項と第二項の積和は0となることがわかる。そのためこの式を左辺を二乗して展開するとΣ(yi-m)^2=Σ(^y-m)^2+Σ(yi-^y)^2がなりたつ。左辺の『元のyのバラツキ』を右辺の『回帰直線で説明できるバラツキ』と、『回帰直線で説明できずに残ってしまうバラツキ』に分解できる。さらにこの式の第二項を回帰直線の定義を用いて運算すると角がこみの中の式にたどり着く。

さすがにTexを使わずmacで式を書き続けるのは辛いし、LaTexも大学以来この方全く触っていないのでそれも記憶の彼方である。他にとっても分かりやすいウェブサイトをいくつかみつけたので参考に。

決定係数の定義とその意味についてとても詳しい。図も豊富でわかりやすい。
決定係数とは,重相関係数,自由度調整済決定係数

エクセルを使って回帰分析をする手順。最小二乗法のイメージもつかみやすい。
‰ñ‹A•ªÍ(1)

発展編。重回帰分析について。
(おまけ)重回帰分析

*1:エクセルで散布図に回帰直線を当てはめた時にもグラフ中に表示することができる。

*2:データの個数で割っていないので正確には分散そのものではない。なので『バラツキ』としている

*3:なぜなら全てのyiはaxi+bで完全に説明できるので

*4:直線への当てはめを示す

*5:回帰直線の傾きaはr*Sy/Sxなので