Klasifikasi Tumor Payudara Jinak dan Ganas Menggunakan Algoritma C4.5 pada Dataset WBCD

Main Article Content

Nur Arifin Sunarto

Abstract

Kanker payudara merupakan salah satu penyebab utama kematian pada wanita di seluruh dunia dengan lebih dari 2 juta kasus baru setiap tahunnya. Deteksi dini melalui klasifikasi tumor yang akurat sangat penting untuk meningkatkan tingkat kelangsungan hidup pasien. Tujuan penelitian ini adalah mengimplementasikan dan mengevaluasi algoritma C4.5 dalam mengklasifikasikan tumor payudara menjadi jinak (benign) atau ganas (malignant) menggunakan Wisconsin Breast Cancer Diagnostic dataset. Dataset terdiri dari 569 sampel dengan 30 fitur numerik yang diekstrak dari citra Fine Needle Aspiration (FNA). Data dibagi menjadi 70% training set (398 sampel) dan 30% test set (171 sampel) dengan stratified sampling. Model dievaluasi menggunakan 10-fold cross-validation dan diukur dengan metrik accuracy, precision, recall, F1-score, specificity, dan kappa statistic. Penelitian ini menghasilkan nilai akurasi sebesar 90.06% pada test set dengan sensitivity 89.06% dan specificity 90.65%. Kappa statistic sebesar 0.790 menunjukkan substantial agreement. Dari 171 sampel uji, model berhasil mengidentifikasi 57 dari 67 kasus malignant (precision 85.07%) dan 97 dari 104 kasus benign (NPV 93.27%). F1-score mencapai 87.02%. Algoritma C4.5 terbukti efektif sebagai screening tool dengan performa excellent, menghasilkan decision rules yang interpretable untuk mendukung keputusan klinis, namun memerlukan konfirmasi medis terutama untuk prediksi dengan confidence rendah dan implementasi protokol follow-up ketat untuk mitigasi risiko false negative.

Article Details

How to Cite
Sunarto, N. A. (2026). Klasifikasi Tumor Payudara Jinak dan Ganas Menggunakan Algoritma C4.5 pada Dataset WBCD. Jurnal Informatika Dan Sistem Informasi, 12(1), 43–58. https://doi.org/10.37715/juisi.v12i1.6236
Section
Articles

References

Arnold, M., Morgan, E., Rumgay, H., Mafra, A., Singh, D., Laversanne, M., Vignat, J., Gralow, J. R., Cardoso, F., Siesling, S., & Soerjomataram, I. (2022). Current and future burden of breast cancer: Global statistics for 2020 and 2040. The Breast, 66, 15–23. https://doi.org/10.1016/j.breast.2022.08.010

Aamir, M., Nawi, N. M., Wahid, F., Mahdin, H., Mohamad Zain, J., Hamed, R. I., Qader, M. A., & Khan, M. A. (2022). Predicting breast cancer leveraging supervised machine learning techniques. Computational and Mathematical Methods in Medicine, 2022, Article 5869529. https://doi.org/10.1155/2022/5869529

Alshayeji, M. H., Ellethy, H., Abed, S., & Gupta, R. (2022). Computer-aided detection of breast cancer on the Wisconsin dataset: An artificial neural networks approach. Biomedical Signal Processing and Control, 71, Article 103141. https://doi.org/10.1016/j.bspc.2021.103141

Bhardwaj, A., Bhardwaj, H., Sakalle, A., Uddin, Z., Sakalle, M., & Ibrahim, W. (2022). Tree-based and machine learning algorithm analysis for breast cancer classification. Computational Intelligence and Neuroscience, 2022, Article 6715406. https://doi.org/10.1155/2022/6715406

Chen, H., Yang, B., Pei, H., & Liu, J. (2023). Classification prediction of breast cancer based on machine learning. Computational Intelligence and Neuroscience, 2023, Article 6530719. https://doi.org/10.1155/2023/6530719

Gurcan, F. (2025). Enhancing breast cancer prediction through stacking ensemble and deep learning integration. PeerJ Computer Science, 11, Article e2461. https://doi.org/10.7717/peerj-cs.2461

Kementerian Kesehatan Republik Indonesia. (2022). Profil kesehatan Indonesia 2022. https://www.kemkes.go.id/

Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174. https://doi.org/10.2307/2529310

Mahesh, T. R., Dhilip Kumar, V., Vinoth Kumar, V., Asghar, J., Geman, O., Arulkumaran, G., & Arun, N. (2022). An efficient ensemble method using K-fold cross validation for the early detection of benign and malignant breast cancer. International Journal of Integrated Engineering, 14(2), 204–216.

Pinheiro, J. M. H., & Becker, M. (2024). Breast cancer classification using gradient boosting algorithms focusing on reducing the false negative and SHAP for explainability. arXiv. https://arxiv.org/html/2403.09548v1

Quinlan, J. R. (1996). Improved use of continuous attributes in C4.5. Journal of Artificial Intelligence Research, 4, 77–90. https://dl.acm.org/doi/10.5555/152181

Sheakh, M. A., Faruq, M. O., Sazzad, S., Mamun, M. A., Hossain, M. S., Ghosh, T., Bairagi, A. K., Masud, M., & Khandaker, M. U. (2024). Predictive modeling for breast cancer classification in the context of Bangladeshi patients by use of machine learning approach with explainable AI. Scientific Reports, 14, Article 8520. https://doi.org/10.1038/s41598-024-57740-5

Uddin, K. M. M., Biswas, N., Rikta, S. T., & Dey, S. K. (2023). Machine learning-based diagnosis of breast cancer utilizing feature optimization technique. Computer Methods and Programs in Biomedicine Update, 3, Article 100098. https://doi.org/10.1016/j.cmpbup.2023.100098

Wolberg, W., Mangasarian, O., Street, N., & Street, W. (1993). Breast cancer Wisconsin (diagnostic) dataset. UCI Machine Learning Repository. https://doi.org/10.24432/C5DW2B

World Health Organization. (2023). Breast cancer. https://www.who.int/news-room/fact-sheets/detail/breast-cancer

Similar Articles

<< < 1 2 3 4 > >> 

You may also start an advanced similarity search for this article.