Contoh 6.1 Erupsi Geyser

Mari kita gunakan kembali data Geyser Old Faithful dari contoh P.2. Sebelumnya, kita menyelidiki waktu antarerupsi. Selain itu, kita juga membandingkan waktu erupsi itu sebagai sebentar atau lama. Sekarang, kita mau membandingkan data mengenai jangka waktu antarerupsi dari dua tahun untuk melihat bagaimana perubahan distribusinya. Data terdiri atas 107 erupsi yang terjadi antara jam 6 pagi sampai tengah malam, dari tanggal 1-8 Agustus 1978 dan 95 erupsi di pada tanggal dan waktu yang sama, pada tahun 2003. Variabel (dan sumber variabilitas) harus konsisten selama kedua data. Peneliti berspekulasi bahwa peristiwa alam dapat mengubah pola erupsi Geyser Old Faithful.

Pikirkanlah: Apa saja unit observasi dalam penelitian ini? Apa kedua variabel penelitian? Jenis variabel apakah ini?

Unit observasi dalam penelitian ini adalah erupsi geyser. Variabelnya adalah tahun (variabel kategorial) dan waktu sampai erupsi berikutnya (variabel kuantitatif). Berikut adalah distribusi antarerupsi untuk kedua tahun tersebut:

ch06-indo.jpg

Apa yang dapat kita lihat dari grafik ini? Satu perbedaan di distribusi interupsi kedua tahun ini adlaah bentuknya: di tahun 2003, lebih sedikit data outlier. Selain data outlier, grafik sedikit miring ke kanan. Sebaliknya, di tahun 1978, terlihat jelas bahwa distribusi berbentuk bimodal (memiliki dua kluster). Sesuatu terjadi di tahun 1978 sehingga waktu antarerupsi menjadi 50 sampai 60 menit dan 70 sampai 90 menit, dan sangat jarang antara 60 sampai 70 menit. Lihat bahwa outlier kurang dari 60 menit di tahun 2003 tidaklah aneh jika terjadi di tahun 1978.

Mungkin perbedaan yang paling jelas antara kedua tahun ini adalah bahwa waktu antarerupsi lebih panjang di tahun 2003 dibandingkan tahun 1978. Waktu antarerupsi yang umum di tahun 2003 adalah kira-kira 90 sampai 100 menit, sedangkan di tahun 1978 antara 50 sampai 60 menit atau 75 sampai 85 menit. Variabilitasnya juga berbeda – lebih sedikit variabilitas di tahun 2003 dibandingkan dengan 1978.

Pikirkanlah: Bagaimana ekspektasi Anda mengenai perubahan nilai rata-rata antara kedua tahun tersebut? Berdasarkan dot plot, perkirakan nilai rata-rata (mean) dan nilai tengah (median).

Nilai rata-rata dari waktu antarerupsi tahun 1978 adalah 71.0 menit, sedangkan 91.2 menit di tahun 2003. Waktu menunggu erupsi berikutnya kira-kira bertambah 20 menit lebih lama di 2003 dibanding tahun 1978. Nilai tengah dari waktu antarerupsi di tahun 1978 adalah 75, sedangkan 91 di tahun 2003. Lihatlah bahwa nilai rata-rata dari 1978 4 menit lebih singkat daripada nilai tengahnya, karena nilai rata-rata ditarik oleh nilai data observasi yang lebih rendah (walaupun kecil).

Pikirkanlah: Bagaimana ekspektasi Anda mengenai perbandingan standar deviasi pada kedua tahun tersebut? Tahun mana yang Anda perkirakan memiliki standar deviasi yang lebih besar, atau apakah keduanya memiliki standar deviasi yang saling mendekati?

Standar deviasi di tahun 1978 adalah 13.0 menit sedangkan pada tahun 2003 adalah 8.5 menit. Standar deviasi 2003 lebih kecil daripada 1978, yang menunjukkan bahwa wakttu antarerupsi lebih konsisten di tahun 2003 dibandingkan 1978.

Cara lain untuk menarik kesimpulan dari distribusi variabel kuantitatif, seperti waktu erupsi berikutnya, adalah untuk membagi distribusi menjadi 4 bagian yang sama besar (sama banyaknya jumlah observasi dalam masing-masing kelompok). Dengan kata-kata lain, kita dapat menarik kesimpulan dari data 25%, 50%, dan 75%.

Definisi: Kuartil bawah adalah nilai dimana 25% data berada di bawah nilai tersebut. Kuartil atas adalah nilai dimana 25% data berada di atas nilai tersebut. Kuartil dapat dihitung dengan cara menentukan nilai medain dari nilai yang berada di atas atau di bawah dari median keseluruhan data. Selisih antarkuartil disebut sebagai jangkauan antarkuartil (interquartile range / IQR). Statistika 5 Serangkai untuk distribusi data kuantitatif terdiri atas minimum, kuartil bawah, median, kuartil atas, dan maksimum.

Berikut adalah Statistika 5 Serangkai:

ch06-indo1.jpg

Karakteristik penting dari jangkauan antarkuartil adalah bahwa hal itu tidak sensitif terhadap nilai-niali yang ekstrim, sehingga tidak seperti standar deviasi. Misalnya, waktu menunggu paling lambat (56 dan 58 menit) di tahun 2003 disingkirkan karena bedanya terlalu jauh sehingga jangkauan antarkuartil (11) dan median (91) tidak berubah. Namun, penghilangan ini akan berdampak pada nilai rata-rata (dari 91.19 menjadi 91.9) dan standar deviasi (dari 8.46 menjadi 6.87).

Poin Penting: Jangkauan antarkuartil adalah ukuran variabilitas yang resistan, sedangkan standar deviasi sensitif terhadap nilai ekstrim dan kemiringan.

Lihatlah bahwa semua nilai dalam Statistika 5 Serangkai lebih kecil dalam distribusi 1978 daripada distribusi 2003, menunjukkan bahwa 1978 memiliki waktu menunggu yang lebih singkat daripada 2003. Statistika 5 Serangkai dapat digambarkan dalam boxplot, seperti ini:

ch06-indo2.jpg

Definisi: Suatu boxplot adalah tampilan visual dari Statistika 5 Serangkai. Kotak menggambarkan nilai yang berada 50% di tengah dari distribusi dan lebarnya membantu kita melihat kepadatan dan pembagian distribusi. Garis kumis yang ditarik sampai ke nilai maksimum dan minimumnya.

Boxplot membantu kita melakukan perbandingan secara cepat antara kedua distribusi tersebut. Kita dapat melihat bahwa 75% dari waktu tercepat di tahun 1978 berada di bawah 75% waktu tercepat di tahun 2003. Kita juga dapt melihat bahwa jangkauan antarkuartil di tahun 2003 lebih singkat, yang berarti variabilitas berkurang. Kekurangan dari penggunaan boxplot adalah terlewatnya informasi detail mengenai bentuk dari distribusinya. Misalnya, kita tidak dapat melihat bahwa data waktu antarerupsi di tahun 1978 terbagi menjadi dua kluster (dua bagian). Untuk itu, disarankan untuk menggunakan boxplot bersamaan dengan histogram.

Pikirkanlah: Berdasarkan distribusi waktu antarerupsi, di tahun manakah Anda lebih menyarankan waktu turis menunggu? Apakah Anda dapat menemukan cara dimana pola erupsi di tahun 1978 lebih unggul daripada tahun 2003, dan sebaliknya?

Jika turis menginginkan waktu menunggu yang lebih singkat, Anda akan lebih memilih pola erupsi di tahun 1978. Jika Anda lebih mementingkan prediksi waktu erupsi yang lebih akurat, Anda akan memilih pola erupsi di tahun 2003 yang memiliki variabilitas yang lebih sedikit.