Modelsammenfatning - Copenhagen Business School

I Logistisk regression konkluderer vi, at Plain og Ridge Logistisk Regression ikke kan

dellerne klarer sig bedre end de andre logistiske modeller, dog er dens performance ikke god nok til at blive anvendt i praksis. Vi ser generelt, at alle vores baseline lo-gistiske modeller har svært ved at håndtere Edaptios datasæt, hvorfor vi må bruge mere komplekse Machine Learning modeller.

Vi ser, at træmodellerne giver et bedre resultat sammenlignet med de logistiske modeller. Både Random Forest og XGboost formår at finde et mønster i data og er i stand til at prædiktere både ikke-frafald og frafald.

De opnår begge høj sikkerhed i deres prædiktioner, dog er XGboost modellen mini-malt bedre i generel performance sammenlignet med Random Forset. Balanceringen forbedrer begge træmodellers prædiktionsevne. Træmodellerne kan benytte både ba-lancering og lavt threshold til at håndtere klasse ubalancen.

Neuralt Netværk resulterer generelt ikke i brugbare prædiktioner på testdatasæt-tet. Vi observerer, at modellen er på niveau med baseline modellen, Lasso. Dropout regulariseringen formår ikke at forbedre prædiktionsevnen baseret på AUC. Den bli-ver tværtimod dårligere. Balancering af de Neurale Netværk forbedrer hellere ikke performance, som vi så det i de andre modeller.

Vi implementerer Stacking med logistisk regression som meta-algoritme. Her benyt-ter vi de bedste versioner af alle modeller, bortset fra Neuralt Netværk, som base learners. Stacking opnår en perfomance på niveau med Random Forest og XGboost.

Ved at kombinere de bedste modeller var forventningen, at kombinationen ville op-nå bedre performance end de selvstændige modeller. Dette er dog ikke tilfældet for Stacking.

For alle de implementerede modeller observerer vi, at en ændring i threshold til 0.3 er medvirkende til, at modellen prædikterer flere frafald. Det vil sige, at en ændring i threshold kan bruges som en måde at håndtere ubalancen i datasættet på.

For størstedelen af modellerne kan ubalancen i datasættet håndteres ved at balancere modellen.

5 Konklusion

Vi har i denne rapport brugt Edaptios data på de studerende til at prædiktere en sandsynlighed for, om den studerende er ved at frafalde sit kursus. Selvom det selvfølgelig er positivt, at størstedelen af de studerende forbliver på deres kurser, så skaber dette en ubalance i datasættet, som vi er nødt til at tage højde for. Denne ubalance har vi valgt at håndtere på to forskellige måder. Den ene metode er, at vi balancerer modellen i træningsfasen. Den anden metode er, at vi benytter et andet

threshold end 0.5 for at se, om dette kan tvinge modellen til at prædiktere flere frafald.

Vi bruger i alt 4 forskellige typer modeller til at prædiktere frafald og for hver type model undersøger vi, hvordan ubalancen håndteres bedst.

Vi ser at Plain Logistisk Regression model overfitter til træningsdatasættet, hvorfor denne ikke er i stand til skelne mellem de to klasser i testdatasættet. Vi prøver derfor at bruge de regulariserede udgaver af logistisk regression. Her ser vi for logistisk regression, i afsnit 4.2, at ikke alle typer regulariseringer fungerer lige godt. Den bedste form for regularisering er at fjerne variablenes indflydelse fuldstændigt, som er tilfældet med Lasso Regression. Vi ser, at Lasso er dén logistiske model, som giver de bedste resultater med threshold0.5. Modsat Lasso er Ridge Regression ikke i stand til at skelne mellem de to klasser i testdatasættet ved threshold0.5. Prædiktionerne for denne model bliver faktisk identiske med Plain Logistisk Regression. Modellerne bliver generelt bedre til at prædiktere frafald ved at sænke threshold til0.3. Udover at ændre på threshold, laver vi balancerede udgaver af de logistiske modeller.

Vi ser, at den balancerede udgave af Plain Logistisk Regression generelt bliver bed-re til at prædiktebed-re frafald, hvilket også medføbed-rer en højebed-re AUC. Den balancebed-rede Ridge Regression formår, ligesom den ubalancerede version, ikke at skelne mellem de to klasser, da den kun prædikterer frafald. Den balancerede Lasso Regression bliver generelt bedre til at prædiktere frafald, men med en lavere AUC.

Random Forest modellen formår at give gode resultater både for den ubalancerede og balancerede model. Vi ser, at den balancerede Random Forest generelt bliver bedre i sin prædiktion af frafald, som ikke forværre prædiktionen af ikke-frafald. Så den generelle performance for den balancerede model forbedres, hvilket kan ses på AUC i figur 17. Ved nedsættelse af threshold til 0.3 bliver modellen bedre til at prædiktere frafald. Dette er også, hvad vi observerer for de logistiske modeller.

Ligesom Random Forest ender XGboost også med en høj performance. Den balan-cerede XGboost opnår en højere performance sammenlignet med den ubalanbalan-cerede XGboost. Både den balancerede og ubalancerede model påvirkes af en ændring i threshold. Med et lavere threshold formår begge at prædiktere flere frafald. Balan-ceringen af XGboost forbedrer dens evne til at prædiktere frafald. Den balancerede model prædikterer størstedelen af ikke-frafald og frafald korrekt. Dette medfører, at den balancerede XGboost opnår den højeste AUC på 0.8792.

Vores Neurale Netværk opnår performance på niveau med de logistiske regressions-modeller. Vi ser for det ikke-regulariserede Neurale Netværk, at det er i stand til at skelne mellem de to klasser, men det opnår ikke en høj performance. Det

sam-me gælder for det regulariserede Neurale Netværk, dog prædikterer det kun få fra-fald sammenlignet med det ikke-regulariserede. Desuden ser vi, at en nedsættelse af threshold til0.3ikke påvirker prædiktionerne af det Neurale Netværk betydeligt.

Balancering af de Neurale Netværk forværrer deres performance.

Til Stacking har vi valgt at bruge de bedst performende modeller for hver type af model bortset fra Neuralt Netværk. Derfor består vores stacking model af Lasso, ba-lanceret Random Forest og baba-lanceret XGboost. Som meta-algoritme har vi valgt at bruge en Plain Logistisk Regression. Det viser sig, at stacking performer på niveau med træmodellerne. Vi ender med en AUC på0.8724. Når thresholdet nedsættes til 0.3, forbliver modellen god til at prædiktere ikke-frafald samtidig med, at den bliver bedre til at prædiktere frafald.

Vi har fundet frem til, at ubalancen i datasættet kan håndteres på to måder. Den ene måde er at sænke threshold, som gør, at modellen generelt prædikterer flere frafald. Den anden metode er at balancere modellen, som også medfører prædiktion af flere frafald. Denne forbedring i prædiktion af frafald kommer som konsekvens af, at flere ikke-frafald bliver fejlprædikteret som frafald, som i nogle tilfælde forværrer model accuracy.

Som nævnt i afsnit 1 vil Edaptio gerne sørge for, at skolerne har mulighed for at vælge mellem to modeller.

Den første model er en generel model, som er god til at prædiktere flest mulige fra-fald. Her er fokus, at modellen opnår en højrecall for frafald. Den anden model skal være sikker i sine prædiktioner af frafald. Det vil sige, modellen skal fejlprædiktere færreste mulige ikke-frafald. Dette svarer til, at modellen opnår høj precision for frafald. Der eksisterer derfor et trade-off mellemrecall ogprecision, som afgør typen af modellen.

Vi kan konkludere, at Machine Learning algoritmer kan bruges på Edaptios ikke-personfølsomme data til at prædiktere en troværdig frafaldssandsynlighed. Det vil sige, at der er potentiale i Edaptios data til at udvikle en brugbar model. Selvom vi har udviklet modeller, som opnår høj performance, er der behov for en videreudvik-ling af modellerne, før de kan bruges i praksis. Dette er nødvendigt, for at skolerne ikke skal bruge unødige ressourcer på håndtering af fejlprædiktioner.

Derudover kan vi konkludere, at flere forskellige typer af supervised Machine Lear-ning algoritmer kan benyttes på Edaptios data. Det kræver dog en omfattende da-tatransformering som beskrevet i afsnit 2.

Til den første model kan vi konkludere, at ubalanceret Random Forest med threshold 0.3 bør benyttes, da denne model opnår højeste recall for frafald. Samtidig opret-holder modellen et højt prædiktionsniveau for frafald. Til den anden model bør den

balancerede Random Forest med threshold 0.5 vælges, da denne har den højeste precision for frafald. Trade-offet mellem precision og recall bliver styret af valg af threshold for størstedelen af modellerne. I denne rapport ser vi, at en sænkning af threshold medfører højere recall og laver precision for frafald. Et højere threshold på0.7 vil potentielt medføre, at modellen opnår en højere precision for frafald men en lavererecall.

6 Diskussion

I dette afsnit vil vi diskutere, hvordan vi ellers kunne have grebet problemstillingen i afsnit 1.1 an. Først beskrives hvordan vi kunne have håndteret data på en anderledes måde. Derefter gennemgås, hvordan vi har valgt at håndtere ubalancen i datasættet og hvilken alternativ metode, vi kunne have brugt. Derudover beskrives hvilke nye variable, som man kunne tilføje til datasættet for at øge modellernes performan-ce. Efterfølgende forklares om datasættets begrænsninger. Derefter vil Alternative Machine Learning modeller, man kunne have benyttet til at løse dette problem, dis-kuteres. Til slut vil de økonomiske aspekter ved prædiktion af frafaldssandsynlighed diskuteres.

6.1 Data

6.1.1 Data transformeringsvalg

Måden vi griber data an på er at opstille et supervised learning problem, så vi har input data og en responsevariabel. Dette er ikke måden, data var opstillet på, da vi modtog den. Som vi også nævner i afsnit 2, har vi transformeret data, så vi er i stand til at benytte supervised Machine Learning algoritmer. Alternativt kan man opstille data som en tidsserie for hver studerende i hvert kursus. Det vil være en multivariat tidsserie med hver studerendes aktiviteter i et givet kursus. I stedet for at lave en sandsynlighedsprædiktion, vil vi prædiktere fremtidige aktiviteter for en given studerende i et givet kursus. På denne måde kan vi, i samarbejde med Edaptio, definere hvornår der er tale om et frafald. Ved at ændre datastrukturen kan man få ny indsigt i data, som kan benyttes til at forbedre prædiktionen. Derfor kan det være relevant for viderearbejde, med at prædiktere frafaldsandsynligheder på Edaptios data, at benytte en anden datastruktur.

6.1.2 Ubalance i datasæt

I datasættet findes en klasse-ubalance, da der er langt færre frafald end ikke-frafald.

Dette er selvfølgelig positivt, da man ønsker, at flest studerende gennemfører ud-dannelsen. Vi håndterer denne ubalance i datasættet ved brug af to metoder. Den

første metode vi prøver, er at ændre på klassifikationsthreshold for at prædikte-re fleprædikte-re frafald. Den anden metode, er at balanceprædikte-re modellen i træningsfasen, som resulterer i en forøgelse af frafaldsprædiktioner. En anden tilgang til at balancere datasættet er at udligne ubalancen inden træningsfasen. Vi kan eksempelvis benyt-te SMOTE-algoritmen til at generere flere frafald, så balancen mellem ikke-frafald og frafald udlignes inden træningsfasen. SMOTE-algoritmen bruger en K-Nearest Neighbors-algoritme til at generere ny data. SMOTE bruges på træningsdatasættet.

Det negative ved at bruge SMOTE er, at de nye genererede observationer kan tilføje støj til datasættet.

6.1.3 Tilføjelse af nye variable til datasættet

For at øge modellens prædiktionsevne kunne man tilføje følgende variable til data-sættet:

• En kursus specifik variabel, som beskriver, hvad beståelsesprocenten er. Dette kunne give indsigt i kursets sværhedsgrad, som nok vil have en stor forklarende effekt på frafald.

• En variable som indholder sessionsdata for hver studerende. Sessionsdata be-skriver, hvor ofte den studerende er inde på platformen. Damvad Analytics har haft positiv erfaring ved brug af denne variabel. Hos andre virksomheder har sessionsdata været den mest forklarende variabel for prædiktion af frafald.

• En variabel som indikerer, hvilken type af uddannelse den studerende tilhører, altså om det er STX, HHX, HTX, HF eller VUC.

• En variabel som indikerer, hvilket kursus den studerende har fulgt. Altså om den studerende tager et matematik eller dansk kursus. Det kan være, at fra-faldsprocenten generelt er højere for dansk modsat matematik.

Denne kan også have en vekselvirkende effekt. Det vil sige, hvis en studerende eksempelvis frafalder matematik, vil den studerende med stor sandsynlighed også frafalde fysik.

Ovenstående er blot nogle variable, som kan tilføjes til datasættet, hvis det bliver tilgængeligt.

6.1.4 Begrænsninger

Selvom vi formår at lave modeller, som har acceptable prædiktionsevner, er vi be-grænset af datamængden. Edaptio har data fra 2014, men denne kan ikke benyttes, da kvaliteten ikke er tilstrækkelig god. Derfor har vi valgt at bruge data fra juni 2018 og frem som nævnt i afsnit 2.6. Desuden er der behov for mere data, hvis prædiktioner på forskellige tidspunkter ønskes. Vi valgte at se på aktivitetsuge 13

og forecastuge 11. Dette valg tog vi dog af bekvemmelighedsgrunde for at have mest mulig data med mindst mulig ubalance. Ved at benytte andreaktivitetsuger og forcastuger vil vi med høj sandsynlighed få andre performance resultater for vores modeller.

Generelt vil modellerne få en bedre prædiktionsevne, jo mere data der er tilgængeligt.

Særligt kan det tænkes, at performance for Neuralt Netværk bliver forbedret ved mere data.

In document Copenhagen Business School (Sider 90-96)