Afbeelding tegoed: nd3000/iStock/GettyImages
Wanneer u gegevens analyseert, kunnen uitbijters de resultaten vertekenen en minder betrouwbaar maken. Als een of meer van uw waarden bijvoorbeeld aanzienlijk hoger zijn dan de meeste gegevens, maken ze het gemiddelde hoger, wat mogelijk niet de gegevens als geheel weerspiegelt. Het verwijderen van deze afgelegen datapunten is daarom een belangrijke stap in het uitvoeren van betrouwbare statistische berekeningen. Zonder speciale uitbijtersfunctie is de eenvoudigste manier om een uitbijtertest in Excel uit te voeren het gebruik van de interkwartielbereik om uitbijters te identificeren, maar u kunt ook de functie Trimmean gebruiken om hetzelfde te benaderen resultaat.
Het interkwartielbereik berekenen
Het interkwartielbereik van gegevens is het bereik dat wordt gedekt door de "box" op een box-and-whisker-plot, of meer precies, het resultaat van het aftrekken van de waarde voor het eerste kwartiel van de gegevens van die van de derde kwartiel. Excel bevat een ingebouwde functie om elk kwartiel voor uw gegevens te berekenen. Zoek een reservecel en typ "= QUARTILE([gegevensbereik], [kwartielnummer])" en plaats het celbereik voor uw gegevens waar staat "[gegevensbereik]" en het kwartiel dat u wilt waar staat "[kwartiel nummer]."
Video van de dag
Als u bijvoorbeeld gegevens hebt in de cellen A2 tot A101 en u wilt de waarde voor het eerste kwartiel, voert u "=QUARTILE(A2:A101, 1)" in om de waarde te vinden. Voor het eerste deel van het argument kun je de relevante cellen markeren met je muis, maar na de komma moet je het nummer van het gewenste kwartiel schrijven. Voor het derde kwartiel met dezelfde gegevens typt u "=QUARTILE(A2:A101, 3)" om het resultaat te krijgen.
Trek met een andere lege cel de waarde van de eerste kwartielcel af van de waarde van de derde kwartielcel. Als het eerste kwartiel zich in cel C2 bevindt en het derde kwartiel in cel D2, typt u "=D2-C2" om het resultaat te krijgen. Dit is de interkwartielafstand.
Uitbijteranalyse in Excel
Om uitbijters te vinden, kunt u nu het interkwartielbereik in de uitbijterformule gebruiken, die stelt dat de bovengrens van de gegevens de waarde is van de derde kwartiel plus 1,5 keer het interkwartielbereik, en de ondergrens is de waarde van het eerste kwartiel minus 1,5 keer het interkwartiel bereik.
Als de eerste kwartielwaarde in C2 is, staat de derde kwartielwaarde in cel D2 en is het interkwartielbereik in cel E2 typt u "=C2-(1,5 * E2)" om de ondergrens te vinden en "=D2+(1,5 * E2)" om de bovengrens te vinden begrenzing. Over het algemeen voert u "=[eerste kwartiel] – (1,5 * [interkwartielbereik])" in om de ondergrens te vinden en "=[derde kwartiel] + (1,5 * [interkwartielbereik])" om de bovengrens te vinden.
Alles onder de ondergrens of boven de bovengrens is een uitbijter.
Om de uitbijtertest in Excel af te ronden, gebruikt u de logische "OF"-functie om op een efficiënte manier te identificeren welke waarden in uw gegevensklasse uitbijters zijn. Voer "=OF([gegevenscel]>[bovengrens], [gegevenscel]$F$2, A2
Als de waarde in A2 boven de bovengrens of onder de ondergrens ligt, wordt "TRUE" weergegeven, wat aangeeft dat de waarde een uitbijter is. U kunt deze formule naar beneden slepen door in de rechterbenedenhoek van de cel met de formule te klikken en door het naar beneden te slepen zodat het naast de laatste gegevenscel eindigt om op elke cel dezelfde berekening uit te voeren data punt.
U kunt ook de gegevens markeren en naar "Voorwaardelijke opmaak" gaan in het gedeelte "Stijlen" van het tabblad "Start" als u de opmaak voor de uitbijters wilt wijzigen. Kies "Nieuwe regel" en markeer de optie "Een formule gebruiken om te bepalen welke cellen moeten worden opgemaakt". Typ dezelfde formule als in de vorige paragraaf en klik vervolgens op de optie "Formaat" om de unieke opmaak voor uitbijters te kiezen.
Trimmean gebruiken
De functie "Trimmean" is een eenvoudigere manier om uitbijters te identificeren. Typ "=TRIMMEAN([gegevensbereik], [proportion to trim])" om de functie te gebruiken, met het cellenbereik dat gegevens bevat in plaats van "[gegevensbereik]" en een decimaalteken percentage dat u wilt bijsnijden waar staat "[proportion to trim]." Dit verwijdert de extreme waarden aan de boven- en onderkant en berekent vervolgens het gemiddelde op basis daarvan overig. Dus als je 10 procent bijsnijdt, zou het de bovenste 5 procent en de onderste 5 procent verwijderen voordat het gemiddelde wordt berekend.
Als de gegevens van A2 tot A101 lopen en u de uiterste 5 procent van de waarden wilt bijsnijden, voert u "=TRIMMEAN(A2:A101, 0.05)" in om het aangepaste gemiddelde te vinden. U kunt 15 procent bijsnijden door in plaats daarvan "=TRIMMEAN(A2:A101, 0.15)" te schrijven.