MA-S3 188
Dosen Pembimbing : Prof. Dr. Agus Yodi Gunawan, S.Si., M.Si. Prof. Sapto Wahyu Indratno, S.Si., M.Sc., Ph.D. Dr. Masayu Leylia Khodra, S.T, M.T.
2025
Materi Koleksi | : Tugas Akhir Disertasi-ITB |
Bahasa | : Indonesia |
Kata Kunci | : pencilan, anomali, aliran data, algoritma rekursif, model iteratif, mini-batch, metode perturbasi, PCA, dekomposisi eigen |
Keterangan | : Pencilan adalah suatu titik data yang sangat ekstrim berbeda dari data lainnya. Pencilan juga disebut sebagai ketidaknormalan, ketidaksesuaian, penyimpangan, atau anomali dalam penambangan data dan literatur statistik. Deteksi pencilan sangat penting untuk memperbaiki kualitas dataset dalam proses penemuan pengetahuan ataupun dalam suatu pemodelan matematis. Aliran data (data stream) adalah barisan titik data yang bersifat tidak pasti, dinamis, dan tak terbatas. Deteksi pencilan pada aliran data tersebut dapat dilakukan secara offline learning dan online learning. Offline learning, juga dikenal sebagai batch learning dalam pembelajaran mesin, merupakan pendekatan dalam pembelajaran mesin yang memproses semua data dalam satu waktu untuk membangun model, sedangkan online learning merupakan pendekatan dalam pembelajaran mesin yang memperbarui model secara inkremental. Namun, karena jumlah data pada aliran data bersifat tidak terbatas maka seluruh aliran data membutuhkan waktu dan komputasi yang besar. Sedangkan, deteksi pencilan secara offline pada aliran data memiliki kelemahan yaitu waktu dan komputasi yang besar. Oleh karena itu, deteksi pencilan pada aliran data lebih cocok menggunakan pendekatan online learning. Penelitian ini bertujuan untuk mengembangkan algoritma deteksi pencilan online pada aliran data dengan menerapkan algoritma rekursif yang memperkirakan formula iteratif untuk memperbarui parameter pada model ketika muncul data baru dan mendeteksi pencilannya. Modifikasi analisis multivariat Principal Component Analysis (PCA) dipilih untuk deteksi pencilan karena data memiliki lebih dari satu variabel yang mana adanya keterkaitan antar variabelnya, sensitivitas metode PCA terhadap pencilan sangat memungkinkan metode ini mendeteksi variasi ekstrem dalam data, dan adanya dekomposisi eigen dari matriks kovariansi data. Lebih lanjut, karena estimasi parameter ini adalah hasil dekomposisi eigen dari matriks kovariansi, maka penelitian ini menggunakan jarak Mahalanobis untuk menghitung skor pencilan. Penelitian ini mendesain algoritma deteksi pencilan dengan jarak Mahalanobis dilakukan baik secara offline dan online. Algoritma offline tersebut merupakan baseline dari algoritma online-nya. Perbedaannya adalah algoritma offline pada penelitian ini didasarkan pada metode PCA klasik untuk memperbarui parameter modelnya, sedangkan algoritma online ini didasarkan pada metode PCA rekursif termodifikasi untuk memperbarui parameter modelnya. Karena asumsi lain dari penelitian ini adalah perubahan matriks kovariansi dari data yang datang tidak berubah drastis, sehingga dekomposisi eigen diaproksimasi dengan analisis perturbasi orde pertama. Untuk mengidentifikasi pencilan digunakan jarak Mahalanobis sebagai skor pencilan. Lebih lanjut, algoritma deteksi pencilan tersebut tidak hanya didesain untuk kedatangan satu titik data saja tetapi dikembangkan pula untuk kedatangan data ukuran mini-batch. Jenis pencilan yang diidentifikasi pada penelitian adalah pencilan global (point anomalies). Simulasi dilakukan pada beberapa dataset sintetis dan sebuah video riil untuk mensimulasikan algoritma deteksi pencilan offline dan online tersebut baik untuk tipe kedatangan data satu titik dan tipe kedatangan data ukuran mini-batch. Hasil simulasi penelitian ini menghasilkan kesimpulan bahwa pada dataset sintetik efektifitas kinerja algoritma online sama dengan algoritma offline untuk kedatangan data satu titik dan efektifitas kinerja algoritma online selisih absolutnya tidak lebih besar dari 0.03 dengan algoritma offline untuk kedatangan data berukuran minibatch yang lebih dari satu titik data. Kemudian, pada dataset riil efektifitas kinerja algoritma online selisih absolutnya tidak lebih besar dari 0.25 dengan algoritma offline baik untuk kedatangan data satu titik maupun data berukuran mini-batch, sedangkan efisiensi kinerja algoritma online lebih tinggi dari algoritma offline baik untuk kedatangan data satu titik maupun data berukuran mini-batch. Lebih lanjut, dari kedua jenis dataset sintetis dan riil dapat disimpulkan pula untuk efisiensi algoritma deteksi pencilan baik secara offline dan online untuk tipe kedatangan data berukuran mini-batch adalah lebih tinggi dari tipe kedatangan data satu titik, dan semakin besar ukuran mini-batch maka efisiensi algoritma deteksi pencilan semakin tinggi. |