Sådan bruges Outliers-funktionen i Excel

Softwareingeniører arbejder på projekt

Billedkredit: nd3000/iStock/GettyImages

Når du analyserer data, kan outliers skæve resultaterne og gøre dem mindre pålidelige. For eksempel, hvis en eller flere af dine værdier er væsentligt højere end størstedelen af ​​dataene, gør de middelværdien højere, hvilket muligvis ikke afspejler dataene som helhed. Fjernelse af disse afsidesliggende datapunkter er derfor et vigtigt skridt i at udføre pålidelige statistiske beregninger. Uden en dedikeret afvigerfunktion er den nemmeste måde at udføre en afvigertest i Excel ved at bruge interquartile range for at identificere outliers, men du kan også bruge Trimmean-funktionen til at tilnærme det samme resultat.

Beregning af interkvartilområdet

Det interkvartile datainterval er det interval, der dækkes af "boksen" på et boks-og-whisker-plot eller mere præcist resultatet af at trække værdien for den første kvartil af dataene fra værdien for den tredje kvartil. Excel indeholder en indbygget funktion til at beregne enhver kvartil for dine data. Find en ekstra celle og skriv "=KVARTIL([dataområde], [kvartiltal])" og indsæt celleområdet for dine data, hvor der står "[dataområde]" og den kvartil, du vil have, hvor der står "[kvartil nummer]."

Dagens video

For eksempel, hvis du har data i cellerne A2 til A101, og du vil have værdien for den første kvartil, skal du indtaste "=KVARTIL(A2:A101, 1)" for at finde værdien. Til den første del af argumentet kan du fremhæve de relevante celler med din mus, men efter kommaet skal du skrive nummeret på den kvartil, du ønsker. For den tredje kvartil med de samme data, skriver du "=KVARTIL(A2:A101, 3)" for at få resultatet.

Brug en anden tom celle til at trække værdien af ​​den første kvartilcelle fra værdien af ​​den tredje kvartilcelle. Hvis den første kvartil er i celle C2 og den tredje kvartil er i celle D2, skal du skrive "=D2-C2" for at få resultatet. Dette er interkvartilområdet.

Outlier-analyse i Excel

For at finde outliers kan du nu bruge interkvartilområdet i outlier-formlen, som angiver, at den øvre grænse for dataene er værdien af tredje kvartil plus 1,5 gange interkvartilområdet, og den nedre grænse er værdien af ​​den første kvartil minus 1,5 gange interkvartilen rækkevidde.

Hvis den første kvartilværdi er i C2, er den tredje kvartilværdi i celle D2, og interkvartilområdet er i celle E2 skal du skrive "=C2-(1,5 * E2)" for at finde den nedre grænse og "=D2+(1,5 * E2)" for at finde den øvre grænse. begrænse. Generelt indtaster du "=[første kvartil] – (1,5 * [interkvartilområde])" for at finde den nedre grænse og "=[tredje kvartil] + (1,5 * [interkvartilområde])" for at finde den øvre grænse.

Alt under den nedre grænse eller over den øvre grænse er en outlier.

For at afslutte outlier-testen i Excel skal du bruge den logiske "ELLER"-funktion til at identificere, hvilke værdier i din dataklasse, der er outliers på en effektiv måde. Indtast "=ELLER([datacelle]>[øvre grænse], [datacelle]$F$2, A2

Hvis værdien i A2 er over den øvre grænse eller under den nedre grænse, viser den "TRUE", hvilket indikerer, at værdien er en outlier. Du kan trække denne formel ned ved at klikke i nederste højre hjørne af cellen med formlen og trække det ned, så det afsluttes ved siden af ​​den endelige datacelle for at udføre den samme beregning på hver datapunkt.

Du kan også fremhæve dataene og gå til "Betinget formatering" i sektionen "Stilarter" på fanen "Hjem", hvis du vil ændre formateringen for afvigelserne. Vælg "Ny regel", og fremhæv indstillingen "Brug en formel til at bestemme, hvilke celler der skal formateres". Indtast den samme formel som i det foregående afsnit, og klik derefter på "Format" for at vælge den unikke formatering for outliers.

Brug af Trimmean

Funktionen "Trimmean" er en enklere måde at identificere afvigere på. Skriv "=TRIMMEAN([dataområde], [forhold til trim])" for at bruge funktionen, med celleområdet, der indeholder data i stedet for "[dataområde]" og en decimal procentdel, du vil trimme, hvor der står "[proportion to trim]." Dette fjerner de ekstreme værdier i toppen og bunden og beregner derefter middelværdien baseret på disse tilbage. Så hvis du trimmede 10 procent, ville det fjerne de øverste 5 procent og de nederste 5 procent, før gennemsnittet blev beregnet.

Hvis dataene løber fra A2 til A101, og du vil trimme de yderste 5 procent af værdierne, indtaster du "=TRIMMEAN(A2:A101, 0,05)" for at finde den justerede middelværdi. Du kan trimme 15 procent ved at skrive "=TRIMMEAN(A2:A101, 0,15)" i stedet for.