重回帰分析

基本的に以下のスキームで分析を進めていくのがよい。


1.散布図を描いて大まかな様子をつかむ。
 その1の一番最初のデータは(誤差が大きくなる原因となる)外れ値として除外する。
2.それぞれの変数間の相関係数を求める。
 特に説明変数間(X,Y)との間に相関関係が十分小さいことを確認する。
 大きい場合はどちらか一つで目的変数(Z)を説明できます。
 今回は特に相関関係はないさそうです。
3.散布図を見た限りでは直線回帰しても良さそうなので、
 それぞれの説明変数を用いて単回帰分析を行う。Linest関数
 他の回帰式を使った方がよさそうならば、変換する。
4.2つの説明変数による重回帰分析を行う。
 この時、単回帰分析よりも精度がよくなれば採択、悪くなれば棄却する。
 今回は良さそうです。
5.その1 Z = 709X + 29964Y −  9923
 その2 Z = 4150X + 50142Y − 148357

参考:http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/


・・・その2は同じでしたけど、その1は回答と回帰式が違います。何故でしょう?。Excelのある統計関数には重大な欠陥があるという話ですが・・・、何故でしょう。

・・・判りました。外れ値処理をしていたのを忘れてました。他の大きくずれている数値を不用意に含めますと、不必要に誤差を大きくする原因になります。

http://www.hatena.ne.jp/1086002051