Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.13087/2421
Title: Balina optimizasyonu algoritması ve rastgele alt uzaylar temelli eksik veri tamamlama yo?ntemleri
Other Titles: Missing data imputation methods based on whale optimization algorithm and random subspaces
Authors: Öztürk, Zehra Kamışlı
Aydın, Zeliha Ergül
Keywords: Endüstri ve Endüstri Mühendisliği
Industrial and Industrial Engineering
Issue Date: 2021
Publisher: Eskişehir Teknik Üniversitesi
Abstract: Eksik veri problemi, gerçek hayat veri setlerini kullanarak veri analitikleri yardımıyla katma değer yaratmaya çalışan araştırmacılar için kaçınılmaz ve istenmeyen bir sorundur. Özelikle elektronik sağlık kayıtlarında %80 gibi yüksek oranda bulunan eksik veri, tıbbi tahmin analitiklerinin tahmin başarısını doğrudan etkilemektedir. Bu nedenle eksik veri doğru bir şekilde analiz edilmeli ve ele alınmalıdır. Ancak, "No free lunch" teorisine uygun olarak tüm veri setlerinde ve tahmin algoritmalarında en iyi sonucu veren bir eksik veri ele alma yöntemi yoktur. Araştırmacılar eksik veriyi ele almak için yeni yöntemler önermeye devam etmektedir. Bu çalışma kapsamında da tıbbi tahmin analitikleri özelinde eksik veri problemi ele alınmış ve yeni eksik veri ele alma yöntemleri literatüre kazandırılmıştır. Sınıflandırıcı başarısını en büyüklemeyi amaçlayan Balina Optimizasyonu Algoritması (BOA) eksik veri tamamlama yöntemi olarak sunulmuştur. Yapılan deneylerle, BOA eksik veri tamamlama yöntemi Parçacık Sürü Optimizasyonu ve sıklıkla kullanılan eksik veri tamamlama yöntemleri ile karşılaştırılmıştır. BOA sınıflandırıcı tahmin başarısı açısından diğer yöntemlere göre daha iyi sonuç vermiştir. Ayrıca, rasgele alt uzaylar kolektif öğrenme stratejisi eksik veri tamamlama problemleri için uyarlanmış ve sıklıkla kullanılan eksik veri tamamlama yöntemleri ile karşılaştırılmıştır. Sınıflandırıcı tahmin başarısı açısından rasgele alt uzaylar kolektif öğrenme eksik veri tamamlama yöntemlerinin literatürle rekabet edebildiği ve gelişime açık olduğu sonucuna varılmıştır. Ek olarak, eksik veriyi dahili olarak ele alabilen XGBoost (Ekstrem Gradyan Artırma (XGBoost: Extreme Gradient Boosting)) algoritmasının eksik veriyi ele alma stratejisinin etkinliği eksik veri tamamlama yöntemleri ile karşılaştırılmış ve analiz edilmiştir. Eksik veri varlığında öznitelik seçimi süreci için rasgele alt uzaylar temelli üç farklı gömülü öznitelik seçim yöntemi ve çok amaçlı BOA sarmal öznitelik seçim yöntemi önerilmiştir. Gerçek hayat uygulaması olarak, Medical Information Mart for Intensive Care-III (MIMIC-III) veri seti üzerinde geliştirilen yoğun bakım ünitelerindeki mortalite ve kalış süresi tahmininde önerilen eksik veriyi ele alma yöntemleri uygulanmış ve sonuçlar literatürdeki çalışmalarla kıyaslanmıştır. BOA ile eksik veri tamamlama işleminden sonra elde edilen XGBoost sınıflandırıcısının tahmin başarısı mortalite tahmini için literatürdeki tahmin başarılarını geçmiştir. Eksik veri içeren veri setine uygulanan XGBoost sınıflandırıcısının tahmin başarısı ise kalış süresi tahmini için literatürdeki tahmin başarılarını geçmiştir.
The missing data problem is an unavoidable and undesirable problem for researchers trying to create added value with the help of data analytics using real-life datasets. Missing data, which is found at a high rate of 80%, especially in electronic health records, affects the prediction success of predictive medical analytics. Therefore, missing data should be analyzed appropriately and handled. However, by the "No free lunch" theory, there is no missing data handling method that gives the best results in all data sets and machine learning algorithms. Therefore, researchers continue to present new methods for missing data handling. In this study, missing data in medical prediction analytics has been addressed, and new missing data handling methods have been added to the literature. The Whale Optimization Algorithm (WOA), which aims to maximize the classifier prediction success, is presented as a missing data imputation method and compared with Particle Swarm Optimization and commonly used missing data imputation methods with experiments. The WOA gave better results than other methods in terms of classifier prediction success. In addition, the random subspaces ensemble learning strategy is adapted for missing data imputation, and the results are compared with commonly used missing data imputation methods and literature. In terms of classifier prediction success, random subspace ensemble learning missing data imputation methods could compete with the literature and are open to improvement. In addition, the performance of the XGBoost (Extreme Gradient Boosting (XGBoost: Extreme Gradient Boosting)) algorithm, which can handle missing data internally, was compared with the missing data imputation methods and analyzed. Three different embedded feature selection methods based on random subspaces and the Multi-Objective WOA wrapper feature selection methods are proposed for the feature selection process in the presence of missing data. As a real-life application, the presented missing data imputation methods were applied to predict mortality and length of stay in intensive care units, which developed on the Medical Information Mart for Intensive Care-III (MIMIC-III) data. The prediction success of the XGBoost classifier obtained after missing data imputation with BOA exceeded the prediction successes in the literature for mortality prediction. Furthermore, the prediction success of the XGBoost classifier applied to the data set with missing data exceeded the prediction successes in the literature for the length of stay prediction.
URI: https://hdl.handle.net/20.500.13087/2421
https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=v7BkNnnepTnbhn8rNR77LcnGqkcz-BIV6ZNjmBCE30i0T43D4CzNAE2YeAn-2PJz
Appears in Collections:Tez Koleksiyonu

Show full item record

CORE Recommender

Page view(s)

108
checked on Oct 3, 2022

Google ScholarTM

Check


Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.