Contoh P.2 Letusan Geiser “Old Faithful”

Latar Belakang Masalah

Dapatkah saat letusan berikutnya terjadi diprediksi secara akurat ? 

s4
Foto dari Todd Swanson

Informasi tentang geiser Old Faithful di stasiun pengembara di 2005.

s5.png

Para peneliti mengumpulkan data dari 222 letusan diambil dari beberapa hari di musim panas pada 1978 dan 1979 dan hasilnya ditunjukkan pada dotplot di bawah ini.

Screen Shot 2016-08-08 at 8.12.00 AM.png

Gambar : Selang waktu erupsi dari mata air panas (geiser) Old Faithful

Beberapa pertanyaan yang muncul

  • Apa saja unit pengamatan dan variabel dalam penelitian ini?
  • Apakah variabel tersebut bersifat kuantitatif atau kategoris?
  • Kita bisa melihat dari dotplot bahwa letusan Old Faithful tidak dapat diprediksi secara tepat dan akurat.
  • Waktu sampai letusan berikutnya bervariasi dari satu letusan ke letusan lainnya.
  • Variabilitas ini adalah properti yang paling mendasar dalam mempelajari Statistik. Tanpa variabilitas, kita tidak memerlukan statistik.

Mari kita lihat lagi dotplot dan penggambaran distribusi. Apa yang bisa menjadi beberapa penjelasan untuk variabilitas ?

Salah satu penjelasan dapat menjadi durasi letusan sebelumnya (pendek :  <  3,5 menit atau panjang > 3,5 menit).

Screen Shot 2016-08-08 at 8.20.40 AM.png

Gambar : Selang waktu letusan dari Old Faithful, yang terbagi dari letusan sebelumnya (kurang dari 3.5 menit atau paling sedikit 3.5 menit).

Salah satu cara untuk mengukur pusat distribusi adalah dengan rata-rata, disebut juga mean. Salah satu cara untuk mengukur variabilitas adalah dengan standar deviasi, yang merupakan jarak rata-rata antara nilai data dalam distribusi dengan mean dari distribusi data.

 

s6

s7

Terminologi dasar

Beberapa aspek yang harus dicari dalam distribusi dari variabel kuantitatif adalah :

  1. Bentuk: Apakah bentuk simetris dari distribusi? Berbentuk gundukan? Apakah ada beberapa puncak atau cluster?
  2. Pusat : Dimana pusat dari penggambaran distribusi? Apakah nilai khas dari data?
  3. Variabilitas : Bagaimana data tersebar? Berapakah jarak antara nilai-nilai tersebut?
  4. Pengamatan yang tidak biasa : Apakah ada data yang menyimpang nyata dari pola keseluruhan dari nilai-nilai data lainnya (outlier)? Apakah ada fitur yang tidak biasa dalam distribusi ?