Cara Memilih Model Regresi yang Benar

Click (en) Version

caramemilih-regresi-75Hidup biasanya sederhana, ketika Anda tahu hanya satu atau dua teknik. Salah satu lembaga pelatihan yang saya ketahui memberitahu siswa mereka – jika hasilnya kontinu – terapkan regresi linear. Jika itu adalah biner – gunakan regresi logistik! Namun, jika dihadapkan dengan sejumlah pilihan yang tersedia banyak sekali berkaitan dengan keinginan kami, semakin sulit untuk memilih yang benar sesuai. Kasus serupa terjadi dengan model regresi.

Dalam beberapa jenis model regresi, penting untuk memilih teknik yang cocok dan terbaik berdasarkan jenis variabel independen dan dependen, serta dimensi dalam data dan karakteristik penting lainnya dari data. Berikut adalah faktor-faktor kunci yang harus Anda latih untuk memilih model regresi yang benar:

  1. Eksplorasi data merupakan bagian tak terelakkan dari bentuk model prediksi. Ini harus Anda lakukan pada langkah pertama sebelum memilih model yang tepat seperti mengidentifikasi hubungan dan dampak dari variabel
  2. Untuk membandingkan model terbaik dari setiap model yang berbeda, kita bisa menganalisis beberapa ukuran (metric) yang berbeda seperti signifikansi statistik dari parameter, R-square, r-square yang disesuaikan (r-square adjusted), AIC, BIC dan kesalahan pengukuran. Satu lagi adalah kriteria Cp_Mallow (lihat di bawah). Hal ini pada dasarnya untuk memeriksa kemungkinan bias dalam model Anda, dengan membandingkan model dengan semua submodels yang mungkin (atau kecocokan-pilihan dari model).
  3. Cross-validasi adalah cara terbaik untuk mengevaluasi model yang digunakan untuk prediksi. Di sini Anda membagi data set ke dalam dua kelompok (latih dan memvalidasi). Sebuah perbedaan rata-rata kuadrat sederhana antara nilai-nilai yang diamati dan diprediksi memberikan ukuran untuk akurasi prediksi.
  4. Jika kumpulan data Anda memiliki beberapa variabel pengganggu, Anda tidak harus memilih metode pemilihan model otomatis karena Anda tidak ingin menempatkan ini dalam model pada saat yang sama.
  5. Hal ini juga akan tergantung pada tujuan Anda. Hal ini dapat terjadi bahwa model yang lebih kuat mudah diterapkan dibandingkan dengan model yang sangat signifikan secara statistik.

Metode regularisasi regresi (Lasso, Ridge dan elastis Net) berfungsi dengan baik dalam kasus dimensi yang tinggi dan multikolinieritas antar variabel dalam kumpulan data.

Mallows’ Cp itu Apa?

Gunakan Cp Mallows ‘untuk membantu Anda memilih antar model regresi. Ini membantu Anda memecahakan keseimbangan yang penting dengan jumlah prediktor dalam model. Cp Mallows ‘membandingkan presisi dan bias dari model lengkap untuk model dengan subset prediktor.

Biasanya, Anda harus mencari model dimana nilai Cp Mallows-nya kecil dan dekat dengan jumlah prediktor dalam model ditambah konstanta (p). nilai Cp A Mallows kecil ‘menunjukkan bahwa model relatif tepat (memiliki varians kecil) dalam mengestimasi koefisien regresi yang benar dan memprediksi respon masa depan. Nilai Cp A Mallows yang dekat dengan jumlah prediktor ditambah konstan menunjukkan bahwa model relatif tidak-berbias didalam memperkirakan koefisien regresi yang benar dan memprediksi respon masa depan. Model yang kurang-layak dan bias memiliki nilai Cp Mallows lebih besar dari p.

PENTING

Menggunakan Cp Mallows ‘untuk membandingkan model regresi hanya berlaku ketika Anda mulai dengan kumpulan lengkap yang serupa dari prediktornya.

CATATAN

Jika prediksi apapun sangat berkorelasi dengan prediktor lain, Cp Mallows tidak akan ditampilkan dalam output.

Contoh menggunakan Mallows’ Cp untuk mengevaluasi suatu model

Misalnya, Anda bekerja untuk sebuah perusahaan keripik kentang yang meneliti faktor-faktor yang mempengaruhi persentase keripik kentang hancur per kontainer. Anda menyertakan bahwa persentase kentang relatif terhadap bahan-bahan lain, laju pendinginan, dan suhu memasak sebagai prediktor dalam model regresi.

Step %Potato Cooling rate Cooking temp Mallows’ Cp
1 X 7.2
2 X X 2.9
3 X X X 5.5

Hasil penelitian menunjukkan bahwa model dengan dua istilah “% Potato” dan “Tingkat Pendinginan” relatif tepat dan tidak-berbias karena angka Mallows Cp-nya (2,9) terdekat dengan jumlah prediktor ditambah konstanta (3). Untuk kemudian Anda harus memeriksa Cp Mallows dalam hubungannya dengan statistik lain yang termasuk dalam hasil seperti R2, Adjusted R2, dan S.

Advertisements

Leave a Reply

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s