Hasil dari yang telah saya baca secara singkat di internet, database yang digunakan pada projct ini adalah database pada suatu toko online, yang mencakup data barang, transaksi, hingga penjual. Olist database terdiri dari 8 buah tabel, seperti yang telah saya lihat menggunakan tools pandas.
Tetapi saya tidak akan menggunakan keseluruh tabel diatas, hanya menggunakan beberapa tabel yang akan digunakan sesuai dengan objective yang telah saya tentukan pada awal pengerjaan proyek.
Objective yang saya tentukan adalah:
- Jika suatu perusahaan ingin mengetahui 10 produk yang paling laku.
- Jika perusahaan ingin mengetahui 10 produk yang banyak di-cancel.
Tahap pertama adalah saya melihat isi dari tabel yang saya butuhkan dengan menggunakan "SELECT * FROM ....". Setelah itu saya melakukan preprocessing. Tahap preprocessing yang saya lakukan adalah mengganti product name bahasa spanyol menjadi bahasa inggris dengan menggunakan left join dengan tabel category products. Dilanjutkan dengan melakukan mengganti manual value produk yang tidak ada di tabel product_category. Prosesnya seperti dibawah ini:
Proses pemeriksaan selanjutnya adalah dengan mengecek ada atau tidaknya missing value pada data. Kolom yang ada missing value-nya memilki perlukan berbeda, tergantung konteks. Pada konteks project kali ini mengisi kolom kosong dengan pada tabel produk, seperti pada tabel dibawah ini.
Selanjutnya adalah proses pengecekkan ada atau tidaknya baris yang duplikat antara data satu dengan yang lain, sama atau tidaknya diukur dari baris yang berurutan apakah sama persis value antara kolomnya atau tidak. Dilakukan pengecekan duplicate karena banyak ditemui data-data yang seharusnya duplicate, tetapi dibiarkan saja.
Tahap selanjutnya adalah melakukan pengecekkan data dari kolom product_name dari tabel new_product. Prosesnya adalah seperti gambar dibawah ini
Proses selanjutnya adalah dilakukannya pengecekan ada atau tidaknya outlier pada kolom harga. Visualisasi dilakukan dengan boxplot agar data outlier dan data-data yang lain bisa dengan mudah terlihat.
Karena banyaknya outlier, maka saya rubah ke dalam bentuk log. Hasil dari visualisasi menggunakan boxpot adalah seperti ini.
Selanjutnya adalah proses join table agar nantinya pada saat analisis tidak perlu melakukan join yang akan menyulitkan pandangan pembaca.
Dan yang terakhir adalah melihat objektif yang telah saya tentukan diawal, pada proses ini dilakukan visualisasi dengan barplot dengan menggunakan library seaborn . Diantarnya adalah sebagai berikut:
- Produk yang paling banyak dijual (Menampilkan 10 produk).
- Mengetahui produk apa saya yang banyak di-cancel oleh pelanggan.
Top comments (0)