Förbättrad noggranhet och ökad kompakthet för beslutsträd genom förbättrad kategorisk uppdelning och samplingsteknik

Av: Gaëtan Millerand

Sammanfattning

Beslutsträd är en av de mest populära algoritmerna i förklarbar AI-domän. I själva verket är det från dess struktur verkligen enkelt att framställa en uppsättning beslutsregler som är helt förståelige för en vanlig användare. Därför forskas det för närvarande på att förbättra beslut eller kartlägga andra modeller i ett träd. Beslutsträd genererat av C4.5 eller ID3-träd lider av två huvudfrågor. Den första är att de ofta har lägre prestanda när det gäller noggrannhet för klassificeringsuppgifter eller medelkvadratfel för regressionsuppgiftens noggrannhet jämfört med modernaste modeller som XGBoost eller djupa neurala nätverk. I nästan varje uppgift finns det faktiskt ett viktigt gap mellan toppmodeller som XGboost och beslutsträd. Denna avhandling tar upp detta problem genom att tillhandahålla en ny metod baserad på dataförstärkning med hjälp av modernaste modeller som överträffar de gamla när det gäller utvärderingsmätningar. Det andra problemet är beslutsträdets kompakthet, eftersom djupet ökar uppsättningen av regler blir exponentiellt stort, särskilt när det delade attributet är kategoriskt. Standardlösning för att hantera kategoriska värden är att förvandla dem till dummiesvariabel eller dela på varje värde som producerar komplexa modeller. En jämförande studie av nuvarande metoder för att dela kategoriska värden i klassificeringsproblem görs i denna avhandling, en ny metod studeras också i fallet med regression.

Nyckelord: Förklarbarhet, provtagning, beslutsträd, vita rutor