Contoh 5.3 Merokok dan Jenis Kelamin Anak

Saat ini, penelitian yang sedang disorot oleh media adalah bagaimana kebiasaan merokok orang tua mempengaruhi jenis kelamin anaknya. Penelitian yang terbaru (Fukuda et al., 2002) menemukan data berikut:

  • Dari 565 kelahiran dimana orang tuanya merokok lebih dari 1 kotak, 255 (45.1%) anaknya laki-laki.
  • Dari 3602 kelahiran dimana kedua orang tua tidak merokok, 1975 (54.8%) anaknya laki-laki.

presentation19.jpg

Proporsi laki-laki dari orang tua yang merokok (0.451) dan orang tua yang tidak merokok (0.548) terlihat cukup berbeda. Mari kita bandingkan kedua proporsi ini untuk melihat apakah perbedaannya signifikan secara statistik. Mari kita nyatakan hipotesa:

Hipotesa Nol: Probabilitas untuk mendapatkan anak laki-laki antara orang yang merokok dan tidak merokok tetap sama. Tidak ada asosiasi antara kebiasaan merokok orang tua dengan jenis kelamin anaknya.

Hipotesa Alternatif: Probabilitas untuk mendapatkan anak laki-laki antara orang yang merokok dan tidak merokok berbeda. Ada asosiasi antara kebiasaan merokok orang tua dengan jenis kelamin anaknya.

Pikirkanlah: Identifikasi kedua variabel dalam penelitian ini. Yang mana variabel penjelas (explanatory) dan variabel respon? Apakah jenis penelitian ini?

Para peneliti ingin tahu apakah kebiasaan merokok orang tua mempengaruhi jenis kelamin anaknya. Variabel penjelasnya adalah kebiasaan merokok orang tua, sedangkan variabel responnya adalah jenis kelamin anak. Penelitian ini merupakan studi observasi, bukan eksperimen, karena peneliti tidak menentukan kelompok perlakuan apa yang didapat oleh subyek. Dengan ini, jika kita mendapatkan perbedaan antara conditional proportion ini signifikan secara statistik, kita tidak dapat menarik kesimpulan sebab-akibat. Dalam penelitian ini, kita lebih tertarik pada banyaknya orang tua yang merokok dan tidak. Mari kita notasikan hipotesa kita:

H0: π merokok – π tidak = 0

Ha: π merokok – π tidak ≠ 0

Karena ukuran populasi cukup besar, kita akan menganggap proporsi populasi seimbang dengan probabilitas setiap kelompok orang tua untuk terpilih secara acak. Apakah hal ini mengubah bagaimana kita menguji signifikansi statistiknya?

Shuffling tanpa pengaturan acak (random assignment)

Dalam penelitian bentuk eksperimen, subyek dibagi ke dalam kelompok variabel penjelas secara acak. Berhubung penelitian ini berbentuk observasi, subyek tidak dikelompokkan secara acak. Untuk melihat ini, kita telah menyatakan hipotesa nol bahwa tidak ada asosiasi antara merokok dengan jenis kelamin anak. Hal ini dapat digambarkan dengan membagi menjadi 2 tumpukan kartu (merokok dan tidak) dan warna kartu (biru: laki-laki; hijau: perempuan). Tidak ada asosiasi antara kedua hal ini. Dengan kata-kata lain, kita sudah memiliki simulasi yang membenarkan hipotesa nol. Tanpa mempertimbangkan bahwa penelitian ini menggunakan pengaturan acak, sampling acak, keduanya, atau tidak sama sekali, kita tetap dapat melakukan simulasi data dengan mengasumsi hipotesa nol benar.

Poin Penting: Mengacak (shuffling) adalah cara yang tepat untuk memperkirakan p-value untuk membandingkan kelompok, tanpa melihat jenis penelitian (observasi atau eksperimen). Jenis penelitian sangat penting untuk membantu kita dalam menentukan luasnya cakupan kesimpulan.

Strategi 3S

1. Statistik

Selisih yang diamati dari conditional proportion laki-laki dari orang tua perokok dan tidak adalah 0.548 – 0.451 = 0.097.

2. Simulasi

Kita telah menggunakan Two Proportions applet untuk melakukan simulasi. Pertama kita mengetik dalam two-way table dan menekan Use Table. Lalu, kita memilih Show Shuffle Options. Kita telah melakukan 5000 pengulangan dengan mengacak 2230 laki-laki dan 937 perempuan dan membaginya kepada 565 orang tua perokok dan 3602 orang tua tidak merokok, dengan menganggap hipotesa nol benar, dan kemudian menghitung proporsi laki-laki di kedua kelompok tersebut untuk 5000 pengulangan tersebut.

Shuffling adalah simulasi dari hipotesa nol, karena shuffling membuktikan bahwa tidak ada hubungan antara merokok dan jenis kelamin anak.

3. Strength of evidence

Kita dapat melihat bahwa tidak ada perbedaan yang ekstrim (lebih dari 0.097 atau kurang dari -0.097) antara statistik yang diobservasi dari 5000 pengulangan, dan didapat bahwa p-value dari dua sisi bernilai 0. Data sampel memberikan bukti yang sangat kuat bahwa probabilitas mendapatkan anak laki-laki jauh berbeda antara orang tua perokok dengan yang tidak.

Distribusi nol berpusat di nol, dengan nilai dari parameter populasi dinyatakan dalam hipotesa nol dan memiliki bentuk seperti lonceng. Applet menunjukkan opsi Overlay Normal distribution. Ternyata, kita dapat memperkirakan p-value dari distribusi nol, yang juga menunjukkan bahwa p-value berdasarkan teori juga kira-kira 0.

Kita dapat menggunakan Theory-Based Inference applet untuk menghitung p-value. Kita pertama memilih “Two Proportions” dari menu dan menggunakan lambang ≠ untuk menyatakan hipotesa alternatif kita. Kemudian, kita memasukkan data. Applet akan menghitung conditional proportion, standarisasi statistik, dan p-value kedua sisi. Berdasarkan standarisasi statistik yang bernilai 4.30, kita dapat melihat bahwa perbedaan antara kedua sampel proporsi berada 4 standar deviasi diatas nilai mean nol. Hal ini berada di ujung distribusi dan ketika kita membulatkan angka ini, akan didapat 0.0000. Oleh karena itu, metode teori juga membuktikan bahwa proporsi anak laki-laki dari orang tua perokok berbeda dengan proporsi anak laki-laki dari orang tua yang tidak merokok.

Estimasi

Seberapa lebih kecil proporsi anak laki-laki dari orang tua perokok, dibandingkan dengan orang tua yang tidak merokok? Dengan kata-kata lain, apabila selisih proporsinya bukan 0, maka berapa? Interval kepercayaan akan membantu menyelesaikan hal ini.

Ingatlah bahwa ketika kita membandingkan dua proporsi, parameter populasi yang kita ingin perkirakan adalah selisih dari proporsi populasi atau probabilitas proses. Karena sampel kita memiliki selisih sebesar 0.097, interval akan terpusat pada angka tersebut , sehingga menurut metode 2SD, interval kepercayaan 95% adalah 0.097 ± 0.044.

Metode teori juga dapat digunakan. Hal ini dapat dihitung menggunakan Theory-Based Inference applet. Dari itu, nilai yang didapat adalah (0.053, 0.141), yang sama dengan nilai yang didapat melalui metode 2SD.

Oleh karena itu, kita 95% yakin bahwa selisih perbedaan proporsi populasi adalah antara 0.053 sampai 0.141. Dengan lebih jelas, kita 95% yakin bahwa proporsi populasi pria lahir 0.053 sampai 0.141 lebih tinggi pada orang tua tidak merokok daripada pria yang merokok. Karena 0 tidak berada dalam interval, 0 bukanlah nilai yang masuk akal. Kesimpulan ini konsisten dan sesuai dengan hasil uji signifikansi.

Salah satu kelebihan dari metode teori adalah untuk menemukan interval kepercayaan yang membantu kita mencari level kepercayaan. Kita melihat bahwa level kepercayaan mempengaruhi interval kepercayaan kita, sehingga lebih banyak nilai menjadi masuk akal. Hal ini akan meningkatkan level kepercayaan kita. Apabila kita meningkatkan level kepercayaan dari 95% ke 99%, kita akan mendapat interval yang lebih luas.

Melalui penghitungan applet, interval kepercayaan 99% untuk selisih antara proporsi anak laki-laki dari perokok dan yang tidak merokok adalah 0.039 : 0.155. Kita dapat menuliskannya dengan 0.097 ± 0.058. Rentang kesalahan pada 99% ini lebih besar daripada pada 95% sehingga interval semakin luas.