Evaluation and Analysis of Supervised Learning Algorithms and Classifiers

Document type: Licentiates
Full text:
Author(s): Niklas Lavesson
Title: Evaluation and Analysis of Supervised Learning Algorithms and Classifiers
Translated title: Utvärdering och Analys av Övervakade Inlärningsalgoritmer och Klassificerare
Series: Blekinge Institute of Technology Licentiate Dissertion Series
Year: 2006
Issue: 4
Pagination: 80
ISBN: 91-7295-083-8
ISSN: 1650-2140
Publisher: Blekinge Institute of Technology
City: Karlskrona
Organization: Blekinge Institute of Technology
Department: School of Engineering - Dept. of Systems and Software Engineering (Sektionen för teknik – avd. för programvarusystem)
School of Engineering S- 372 25 Ronneby
+46 455 38 50 00
http://www.tek.bth.se/
Authors e-mail: Niklas.Lavesson@bth.se
Language: English
Abstract: The fundamental question studied in this thesis is how to evaluate and analyse supervised learning algorithms and classifiers. As a first step, we analyse current evaluation methods. Each method is described and categorised according to a number of properties. One conclusion of the analysis is that performance is often only measured in terms of accuracy, e.g., through cross-validation tests. However, some researchers have questioned the validity of using accuracy as the only performance metric. Also, the number of instances available for evaluation is usually very limited. In order to deal with these issues, measure functions have been suggested as a promising approach. However, a limitation of current measure functions is that they can only handle two-dimensional instance spaces. We present the design and implementation of a generalised multi-dimensional measure function and demonstrate its use through a set of experiments. The results indicate that there are cases for which measure functions may be able to capture aspects of performance that cannot be captured by cross-validation tests. Finally, we investigate the impact of learning algorithm parameter tuning. To accomplish this, we first define two quality attributes (sensitivity and classification performance) as well as two metrics for measuring each of the attributes. Using these metrics, a systematic comparison is made between four learning algorithms on eight data sets. The results indicate that parameter tuning is often more important than the choice of algorithm. Moreover, quantitative support is provided to the assertion that some algorithms are more robust than others with respect to parameter configuration. To sum up, the contributions of this thesis include; the definition and application of a formal framework which enables comparison and deeper understanding of evaluation methods from different fields of research, a survey of current evaluation methods, the implementation and analysis of a multi-dimensional measure function and the definition and analysis of quality attributes used to investigate the impact of learning algorithm parameter tuning.
Summary in Swedish: Den centrala frågan som studeras i denna uppsats är hur övervakade inlärningsalgoritmer och klassificerare ska utvärderas och analyseras. Som ett första steg analyserar vi existerande utvärderingsmetoder. Varje metod beskrivs och kategoriseras enligt ett antal egenskaper. En slutsats är att prestanda ofta mäts i form av korrekthet, exempelvis med korsvalidering. Några studier har emellertid ifrågasatt användandet av korrekthet som enda mått för prestanda. Dessutom är datamängden som är tillgänglig för utvärdering oftast begränsad. Användandet av mätfunktioner har givits som förslag för att hantera dessa problem. En begränsning med existerande mätfunktioner är att de bara kan hantera tvådimensionella instansrum. Vi presenterar en generaliserad flerdimensionell mätfunktion och demonstrerar användbarheten med ett experiment. Resultaten indikerar att det finns fall då mätfunktioner fånga andra aspekter av prestanda än korsvalideringstest. Slutligen undersöker vi effekten av parameterjustering. Detta görs genom att definiera två kvalitetsattribut (känslighet och klassificeringsprestanda) samt två mått för varje attribut. Dessa mått används för att utföra en systematisk jämförelse mellan fyra inlärningsalgoritmer över åtta datamängder. Resultaten indikerar att parameterjustering oftast är viktigare än val av algoritm. Kvantitativt stöd ges också åt påståendet att vissa algoritmer är mer robusta än andra vad gäller parameter konfiguration. Bidragen från denna uppsats innehåller; definition och användande av ett formellt ramverk som möjliggör jämförelse och djupare förståelse för utvärderingsmetoder från olika forskningsdiscipliner, en överblick av existerande utvärderingsmetoder, en implementation och analys av en flerdimensionell mätfunktion samt en definition och analys av kvalitetsattribut som används för att undersöka effekten av parameterjustering för inlärningsalgoritmer.
Subject: Computer Science\Artificial Intelligence
Keywords: machine learning, evaluation, classification
URN: urn:nbn:se:bth-00332
Edit