Regresyon Analizi 2

Emrah Er bio photo By Emrah Er

En Küçük Kareler (EKK) regresyonu ekonometrik analizin çekirdeğidir. Bu bölümde tek değişkenli ve çok değişkenli regresyon tahminleri yapılarak, R çıktısında yer alan regresyon istatistiklerinin tanımlamaları yapılmaktadır.

Analizde kullanılan veri seti 20 gözlem ve 2 değişken (Boy (X) ve Kilo (Y)) içermektedir. Veriyi R’a aktarmak için aşağıda yer alan komutlar kullanılmalıdır.

library(RCurl)
url <- "https://raw.githubusercontent.com/emraher/data/master/HTWT1.csv"
data <- getURL(url)
data <- read.csv(textConnection(data))

En küçük kareler yöntemi kullanılarak regresyon tahmini gerçekleştirmek için ise aşağıdaki komutlar kullanılmalıdır.

model <- lm(data$Y ~ data$X)
summary(model)
## 
## Call:
## lm(formula = data$Y ~ data$X)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -18.545  -3.947  -0.611   3.176  18.701 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)  103.397      9.342   11.07  1.8e-09
## data$X         6.377      0.884    7.22  1.0e-06
## 
## Residual standard error: 8.5 on 18 degrees of freedom
## Multiple R-squared:  0.743,	Adjusted R-squared:  0.729 
## F-statistic: 52.1 on 1 and 18 DF,  p-value: 0.00000103

Bir regresyon ile ilgili gerekli istatistiki bilginin çoğu summary(model) komutu çıktısında yer almaktadır. Katsayı istatistikleri tablo biçiminde sunulmaktadır. Özet istatistikler de yine benzer biçimde tablo formatında en alt kısımda yer almaktadır.

Çıktıda Call ile başlayan kısım tahmın edılen denklem formülünü göstermektedir.

Residuals ile başlayan kısımda ise artıklara ait bazı istatistiki veriler yer almaktadır, artıkların minimum, birinci dörttebirlik, ortanca, üçüncü dörttebirlik ve maksimum değerleri.

Tahmin edilen regresyon katsayılarına ait bilgiler Coefficients ile başlayan kısımdır. İlk sütun değişkenleri (Intercept sabit terim ve X boy), ikinci sütun ise değişkenlere ait tahmin edilen katsayı değerlerini (yani ve ) göstermektedir. (3) ila (5) numaralı sütunlar sırasıyla katsayı standart hatalarını, t-istatistiklerini ve p-değerlerini göstermektedir.

Çıktının en alt kısmında ise diğer bazı regresyon istatistikleri yer almaktadır.

  1. Residual standard error: Hata terimlerinin standard hatalarını göstermektedir.
  2. Multiple R-squared: Bağımsız değişkenler tarafından açıklanan bağımlı değişkenin varyansının oranıdır, .
  3. Adjusted R-squared: Düzeltilmiş .
  4. F-statistic: Regresyondaki tüm eğim katsayılarının (sabit terim hariç) sıfıra eşit olduğu hipotezini test eder.
  5. p-value: F-istatistiğinin olasılık değeridir.

Çok değişkenli regresyon analizi de benzer biçimde gerçekleştirilmektedir. Beef2.csv biftek miktarı ve fiyatı ile harcanabilir gelire ait 1960 ila 1987 dönemini kapsayan yıllık verileri göstermektedir.

Biftek talebi (B)’nin, sabit terim (Intercept), Biftek fiyatı (P) ve Kişi başı Harcanabilir Gelir (YD) üzerine regresyonunu gerçekleştırmek için şu komutlar kullanılabilir.

Veriyi okumak için;

url <- "https://raw.githubusercontent.com/emraher/data/master/Beef2.csv"
beef <- getURL(url)
beef <- read.csv(textConnection(beef))

R’a beef şeklinde tanıtılan verinin ilk birkaç satırını görüntülemek için;

head(beef)
##     YD    B    P
## 1 6036 85.1 20.4
## 2 6113 87.8 20.2
## 3 6271 88.9 21.3
## 4 6378 94.5 19.9
## 5 6727 99.9 18.0
## 6 7027 99.5 19.9

Model tahminini gerçekleştirmek için;

beef.model <- lm(beef$B ~ beef$P + beef$YD)
summary(beef.model)
## 
## Call:
## lm(formula = beef$B ~ beef$P + beef$YD)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -13.483  -4.125   0.745   3.534  10.507 
## 
## Coefficients:
##             Estimate Std. Error t value   Pr(>|t|)
## (Intercept) 37.53605   10.04020    3.74    0.00097
## beef$P      -0.88262    0.16473   -5.36 0.00001480
## beef$YD      0.01189    0.00176    6.75 0.00000045
## 
## Residual standard error: 6.08 on 25 degrees of freedom
## Multiple R-squared:  0.658,	Adjusted R-squared:  0.631 
## F-statistic: 24.1 on 2 and 25 DF,  p-value: 0.0000015