Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.13087/2384
Title: Metin sınıflandırma için öznitelik seçimi ve globalleştirmenin etkisi
Other Titles: Feature selection for text classification and the effect of globalisation
Authors: Uysal, Alper Kürşat
Parlak, Bekir
Keywords: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol
Computer Engineering and Computer Science and Control
Issue Date: 2021
Publisher: Eskişehir Teknik Üniversitesi
Abstract: Günümüzde internet hizmetlerinin artmasıyla her geçen gün metinsel veri üssel olarak artış göstermektedir. Bu metinlerin daha anlamlı ve kullanışlı hale gelebilmesi için metinlerin içeriklerine göre sınıflandırılması gerekmektedir. Bu sebeple otomatik metin sınıflandırma yaklaşımları oldukça önem kazanmıştır. Metin sınıflandırma yaklaşımlarının temel görevi metinleri içeriklerine göre sınıflara atamaktır. Metin içerikli dokümanları içeriklerine uygun sınıflara atayabilmek için birçok işlem adımları bulunmaktadır. Bunlar; öznitelik çıkartma, öznitelik seçimi, öznitelik ağırlıklandırma ve sınıflandırma işlemleridir. Metin sınıflandırma başarımını artırabilmek için bu aşamaların her biri ayrı bir öneme sahiptir. Ancak öznitelik seçimi son yıllardaki çalışmalarda daha popüler hale gelmiştir. Bu tez çalışmasında, metin sınıflandırma için kullanılan lokal öznitelik seçim metotları üzerinde farklı globalleştirme (maksimum, toplam, ağırlıklı toplam) teknikleri kullanılarak performans karşılaştırması yapılmış ve literatürde var olan güncel öznitelik seçim metotlarının performansından daha yüksek performansa sahip yeni bir öznitelik seçim metodu önerilmiştir. Bu amaçla farklı karakteristiğe sahip veri kümeleri üzerinde globalleştirme tekniklerinin başarımı nasıl değiştirdiğini gözlemlemiş olduk. Ayrıca, özniteliğin koleksiyon bazlı ve sınıf bazlı skorlarını göz önünde bulundurarak, Ayrıntılı Öznitelik Seçimi (EFS) adında yeni bir öznitelik seçim metodu önerilmiştir.
Nowadays, with the increase of internet services, textual data increases exponentially with each passing day. In order to make these texts more meaningful and useful, the texts should be classified according to their content. For this reason, automatic text classification approaches have gained importance. The main task of text classification approaches is to assign texts to classes according to their content. There are many steps to assign text-containing documents to classes suitable for their content. These are feature extraction, feature selection, feature weighting and classification processes. In order to increase the text classification performance, each of these stages has a special importance. However, feature selection has become more popular in recent years. In this thesis, performances were compared using different globalisation techniques (maximum, sum, weighted sum) on local feature selection methods used for text classification and a novel feature selection method with higher performance than the current feature selection methods in the literature are proposed. For this purpose, we have observed how globalisation techniques change performance on datasets with different characteristics. Also, considering the corpus-based and class-based scores of the feature, a new feature selection method is proposed, called Extensive Feature Selector(EFS).
URI: https://hdl.handle.net/20.500.13087/2384
https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=9MiDp3x86xrwjpi5-14w-XLc8gcm1y8I3P8s45tyhgZm886Z9eWbGxE4B-ogjCtW
Appears in Collections:Tez Koleksiyonu

Show full item record

CORE Recommender

Page view(s)

28
checked on Oct 3, 2022

Google ScholarTM

Check


Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.