Studi Metodologis Optimasi Hyperparameter XGBoost Menggunakan Bayesian Optimization untuk Prediksi Risiko Stunting Berbasis Dataset Simulasi

Penulis

  • Nofri Yudi Arifin Universitas Ibnu Sina, Indonesia

DOI:

https://doi.org/10.66084/jeti.v3i01.608

Kata Kunci:

Bayesian Optimization, Dataset Simulasi, SHAP, Stunting, XGBoost

Abstrak

Stunting merupakan permasalahan kesehatan masyarakat yang serius di Indonesia. Penelitian ini merupakan studi metodologis yang bertujuan mengevaluasi efektivitas Bayesian Optimization (BO) dalam mengoptimasi hyperparameter algoritma Extreme Gradient Boosting (XGBoost) untuk klasifikasi risiko stunting. Karena keterbatasan akses microdata individu dari SSGI dan SDKI, penelitian ini menggunakan dataset simulasi yang dikonstruksi berdasarkan distribusi statistik agregat resmi Kementerian Kesehatan dan Badan Pusat Statistik. Dataset terdiri atas 12.847 record dengan 14 fitur prediktor. Tahapan penelitian meliputi pembentukan dataset simulasi, pra-pemrosesan, seleksi fitur dengan mutual information, penanganan imbalanced class dengan SMOTE, dan optimasi hyperparameter melalui 50 iterasi BO menggunakan library Optuna. Model dibandingkan dengan Logistic Regression, Random Forest, SVM, XGBoost default, XGBoost-Grid Search, dan XGBoost-Random Search. Hasil eksperimen menunjukkan XGBoost-BO mencapai accuracy 91,8%, F1-score 90,4%, dan AUC-ROC 95,3%, mengungguli seluruh model pembanding (p < 0,05). BO meningkatkan F1-score 5,7 poin persentase dibandingkan XGBoost default dengan efisiensi komputasi 34 kali lebih baik dari Grid Search. Analisis SHAP mengidentifikasi berat badan lahir, tinggi badan ibu, dan pendapatan keluarga per kapita sebagai faktor dominan. Hasil studi ini menjadi landasan metodologis untuk validasi pada data riil setelah perizinan akses diperoleh.

Referensi

World Health Organization, "Stunting in a Nutshell," WHO, Geneva, 2024. [Online]. Available: https://www.who.int/news/item/19-11-2015-stunting-in-a-nutshell

Kementerian Kesehatan Republik Indonesia, "Hasil Survei Status Gizi Indonesia (SSGI) 2024," Jakarta: Kemenkes RI, 2024.

S. Mulyani and R. Wijaya, "Tantangan Deteksi Dini Stunting pada Sistem Posyandu di Indonesia," Jurnal Kesehatan Masyarakat, vol. 18, no. 2, pp. 115-127, 2023.

T. Chen and C. Guestrin, "XGBoost: A Scalable Tree Boosting System," in Proc. 22nd ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining, 2016, pp. 785-794.

A. Nugraha, B. Wibowo, and D. Sari, "Performance Evaluation of Gradient Boosting Algorithms for Imbalanced Medical Data," Int. J. of Advanced Computer Science and Applications, vol. 15, no. 4, pp. 142-151, 2024.

R. Mitchell and E. Frank, "Accelerating the XGBoost algorithm using GPU computing," PeerJ Computer Science, vol. 3, e127, 2017.

J. Bergstra and Y. Bengio, "Random Search for Hyper-Parameter Optimization," Journal of Machine Learning Research, vol. 13, pp. 281-305, 2012.

P. I. Frazier, "A Tutorial on Bayesian Optimization," arXiv preprint arXiv:1807.02811, 2018.

A. Patki, R. Wedge, and K. Veeramachaneni, "The Synthetic Data Vault," in Proc. IEEE Int. Conf. on Data Science and Advanced Analytics, 2016, pp. 399-410.

L. Yang and A. Shami, "On hyperparameter optimization of machine learning algorithms: Theory and practice," Neurocomputing, vol. 415, pp. 295-316, 2020.

D. Pratiwi, H. Setiyono, and M. Rahman, "Klasifikasi Status Gizi Balita Menggunakan Algoritma Random Forest pada Data Posyandu," Jurnal Teknik Informatika dan Sistem Informasi, vol. 9, no. 1, pp. 23-34, 2023.

B. Setiawan and A. Hidayat, "Penerapan Algoritma C4.5 untuk Prediksi Stunting pada Balita," Jurnal RESTI, vol. 7, no. 3, pp. 512-520, 2023.

F. Ramadhani, S. Kurniawan, and L. Pratama, "Komparasi Algoritma Machine Learning untuk Prediksi Stunting di Indonesia," Jurnal Nasional Pendidikan Teknik Informatika, vol. 12, no. 4, pp. 489-498, 2023.

N. V. Chawla, K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE: Synthetic Minority Over-sampling Technique," Journal of Artificial Intelligence Research, vol. 16, pp. 321-357, 2002.

S. M. Lundberg and S.-I. Lee, "A Unified Approach to Interpreting Model Predictions," in Advances in Neural Information Processing Systems, 2017, pp. 4765-4774.

Diterbitkan

2026-02-26