Elak pening bila tengok/ ‘main’ dataset

Pening.. dataset tahun 2010 je tengok. Tak masuk 2006-2009. Final dataset, 1906 farms dan 67 variables. Pening sebab tak tahu ladang ni betul ke tak ataupun memang managementnya macam tu. Jadi memotong apa yang tak perlu memerlukan penghakiman yang benar2 serius, kenapa, mengapa, dan paling penting betul ke? Alasan harus kukuh, nanti nak mengadap sv (dan masa defense nanti), mesti akan ada soalan kenapa ni dibuang, tu dibuang, assumption tu betul ke tak.. ni lah kerja orang bermain data.

Semalam dah menghadap sv lain untuk bincang 3 ladang intensive yang menunjukkan management yang teramatlah berbeza dengan ‘average’. Bincang punya bincang, kami ambil keputusan, kalau dibuang makanya yang tinggal hanya average. Kalau disimpan, ya bacaan maximum pasti sangat berbeza dengan ‘average’tapi ladang ini akan menjadi pemberat pada ladang sangat intensive. Mungkin ada eloknya ia dibiarkan. Untuk sekarang mungkin elok ia masih di dalam dataset.

Gerak kerja biasanya di buat seperti di bawah

Kebiasaannya saya senaraikan kesemua variables yang ada dan juga assumption yang telah dibuat. Yang di atas adalah untuk cow-level. Saya juga ada data herd level.

Kemudian saya akan senaraikan satu persatu gerak kerja dari permulaan jumlah keseluruhan ladang yang saya ada dan tindakan saya buat untuk memastikan ladang yang saya mahu benar-benar mengikut objektif research ini. Macam saya hanya nak ladang yang ada 30 ekor lembu susu, dan saya hanya mahu ladang yang benar-benar ladang lembu susu dan bukan yang melakukan urusan jual lembu susu.

Saya akan buat senarai itu sehinggalah saya tiba ke keputusan saya yang terakhir dan jumlah ladang yang saya ada untuk analisis akhir. Perlu diingat, ini bukan kerja sehari dan kita akan selalu ada masalah dengan setiap variable yang kita ada. Lagi-lagi kalau data ini bukan kita yang ambil, tentu sekali akan pening dengan segala macam nombor ‘pelik’yang kita nampak.

Dan ini adalah cara saya mengetahui bahawa variable itu ada nombor ‘pelik’. Mula-mula buat proc means untuk tahu mean, sd, min dan max variable. Lepas tu, buat univariate step untuk tahu distribution data. Kalau tgk yg ni, antara 100% percentiles dan 99% macam ada yang meragukan. Kemudian, tengok di data original (sort kan data), dan perhatikan adakah nilai antara 99% percentiles ke 100% tu jauh sangat atau antara 1% ni nombor-nombor yang tak pelik dari keduanya. Dalam kes ini, tak ada yang meragukan bila saya tengok original dataset.

Masalah siapa harus ada dalam dataset sudah selesai. Descriptive results sudah. Hari ini nak sudahkan juga correlation analysis, univariate analysis dan final multivariate model antara dependent dan segala independent variables. Alhamdulillah, hanya GLM model sahaja, tak perlu logistic atau etc yang segala mak nenek lain. Ini memudahkan kerja saya…

Writing dibuat sambil analisis sebab nak tulis materials and methods sehari lepas BERJAYA buat (dan bukan tulis apa tak menjadi). Agak challenging juga sebab nak pastikan semua sempurna terus (berdasarkan pengalaman lepas), supaya tak pening kepala bila paper dah jadi panjang berjela. Tapi kalau ada gerak kerja macam diatas, sekurangnya membantu bila menulis dan organized sikit.


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: