Statistik Deskriptif Dasar Dengan Python

Pada postingan kemarin telah membahas Dasar Analisa Teks Dengan Python. Dan untuk postingan kali ini mau membahas sedikit tentang statistik dasar yaitu statistik deskriptif. Untuk menjadi seorang Data Scientist, kemampuan statistika juga diperlukan.

Statistik Deskriptif

Apa Statistik Deskriptif itu? Statistik deskriptif adalah metode dari pengorganisasian, penjumlahan, dan penyajian data dalam sebuah cara yang nyaman dan informatif, termasuk teknik grafik, dan teknik penghitungan. Statistik deskriptif dapat mendeskripsikan data yang sedang dianalisis, tetapi tidak boleh menarik kesimpulan apapun dari data. Statistik deskriptif dibagi menjadi dua bagian, ukuran nilai tengah dan ukuran dispersi. Untuk ukuran nilai tengah, tentunya sudah tidak asing lagi. Karena akan membahas seputar rata-rata(mean), modus dan median. Ya kan? seingat saya mean, modus dan median ini sudah diajarkan sejak SD :D. Bagaimana dengan ukuruan dispersi? sama saja kok, ukuran dispersi ini membahas tentang varians, simpangan baku, koefisien variasi, dan nilai jarak (range).

Bahan

Sama seperti sebelumnya, kita perlu beberapa library Python untuk mempraktikkan. Apa bisa statistik deskriptif tanpa library tambahan? jawabannya bisa tapi ada beberapa kekurangannya. Aktifkan virtualenv kalian dan jalankan perintah:

pip install numpy panda jupyter

Selanjutnya kita butuh dataset untuk untuk percobaan, saya mau mencoba dataset tentang Rasio Gini yang dimiliki oleh BPS. Dataset ini terbuka, jadi semua orang bisa mengunduhnya. Tapi kita ubah dulu header data_content menjadi rasio, karena nanti akan mengakibatkan sebuah error dan sama pada penamaan sebuah fungsi.

Gini Rasio

Sebelum memulai memasak dataset, kita perlu mengenali dulu datasetnya. Dataset pada postingan ini tentang Gini Rasio, menurut Peraturan Menteri Tenaga Kerja Dan Transmigrasi Republik Indonesia Nomor Per.25/MEN/IX/2009 Tentang Tingkat Pengembangan Pemukiman Transmigrasi, gini rasio merupakan ukuran pemerataan pendapatan yang dihitung berdasarkan kelas pendapatan dalam 10 kelas pendapatan.

Ukuran Nilai Tengah

Pertama kita akan mencari mean, modus dan median dari rasio gini Provinsi Jawa Timur. Untuk pengertian mean, media dan modus tak perlu saya jelaskan mungkin teman-teman sudah hafal diluar kepala. Jadi, lnsgung saja jalankan jupyter notebook pada terminal dengan perintah:

jupyter notebook

Browser kesukaan kalian akan terbuka sesuai direktori pada terminal. Contohnya seperti dibawah:

jupyter_notebook

Yang baru memakai Jupyter Notebook seperti saya, silahkan pilih New Python3 pada pojok kanan atas. Nanti akan dibawa ke tab baru, tampilannya seperti dibawah:

jupyter_notebook2

Selanjutnya ikuti kode dibawah:

# import library
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# mendefinisikan file
path="gini_rasio_jatim.csv"
df = pd.read_csv(path)

# menentukan dataframe
gini_rasio = df['nilai_rasio']

# mencari mean, median dan modus
mean = gini_rasio.mean()
median = gini_rasio.median()
modus = gini_rasio.mode()

# menampilkan ukuran nilai tengah
print('Mean: ',mean,'nMedian: ',median,'nModus: ',modus[0])

# membuat grafik
plt.figure(figsize=(15,5))
plt.hist(gini_rasio,bins=35,color='grey')
plt.axvline(mean,color='red',label='Mean')
plt.axvline(median,color='yellow',label='Median')
plt.axvline(modus[0],color='green',label='Modus')
plt.xlabel('nilai_rasio')
plt.ylabel('frekuensi')
plt.legend()
plt.show()

hasil_1

Ukuran Nilai Dispersi

Nilai dispersi adalah ukuran penyimpangan nilai-nilai data dari nilai-nilai pusatnya. Dari varians, simpangan baku, koefisien variasi, dan nilai jarak (range) yang terdapat pada ukuran nilai dispersi yang sering kita dengar adalah range. Bagaimana dengan varians, simpangan baku dan koefisien variasi? karena saya dulunya IPS :D, untuk 3 hal tersebut masih begitu asing bagi saya. Karena blog ini juga sebagai catatan entah yang keberapa, saya akan menulis ulang beberapa penegrtian yang saya dapat dari internet :D.

  1. Varian, adalah rata-rata hitung penyimpangan kuadrat setiap data terhadap rata-rata hitungnya.
  2. Simpangan Baku atau Standar Deviasi, adalah akar kuadrat dari varians dan menunjukkan standar penyimpangan data terhadap nilai rata-ratanya. Dan standar deviasi merupakan ukuran simpangan yang sering digunakan dalam analisa.
  3. Koefisian Variasi, adalah perbandingan antara simpangan baku dengan nilai rata-rata.

Ukuran nilai dispersi juga bisa dihitung dengan Python, untuk mencobanya silahkan lanjutkan kode berikut pada Jupyter Notebook pertama tadi:

# mencari ukuran nilai deviasi
maks = gini_rasio.max()
minm = gini_rasio.min()
jarak = maks - minm
varians = gini_rasio.var()
simp_baku = gini_rasio.std()
koef_var = simp_baku / mean

# menampilkan ukuran nilai deviasi
print('Nilai tertinggi: ',maks,'nNilai terendah: ',minm,'nRange: ',jarak, 'nVarians: ',varians,'nSimpangan Baku: ', simp_baku,'nKoefisien Variasi: ',koef_var)

hasil_2

Jika masih kurang jelas, silahkan beri komentar. Saya sendiri saat ini juga masih belajar tentang statistika, mari belajar bersama :D. Oh ya, untuk file yang dari BPS sudah saya rubah beberapa, jadi silahkan sesuaikan dengan file yang kalian punya :D.

Sumber:
Statistik Deskriptif
Dataset Rasio Gini
Ukuruan Dispersi
Gini Rasio
Statistik Deskriptif Python
Pengukuran Penyimpangan


Posted

in

by

Tags:

Comments

4 responses to “Statistik Deskriptif Dasar Dengan Python”

Leave a Reply

Your email address will not be published. Required fields are marked *