Outliers-funktion käyttäminen Excelissä

Ohjelmistoinsinöörit työskentelevät projektin parissa

Kuvan luotto: nd3000/iStock/GettyImages

Kun analysoit tietoja, poikkeamat voivat vääristää tuloksia ja tehdä niistä vähemmän luotettavia. Jos esimerkiksi yksi tai useampi arvoistasi on huomattavasti suurempi kuin suurin osa tiedoista, ne tekevät keskiarvosta korkeamman, mikä ei välttämättä kuvasta dataa kokonaisuutena. Näiden syrjäisten tietopisteiden poistaminen on siksi tärkeä askel luotettavien tilastolaskelmien suorittamisessa. Ilman erityistä outliers-toimintoa helpoin tapa suorittaa outliers-testi Excelissä on käyttää kvartiilien välinen alue poikkeavien arvojen tunnistamiseen, mutta voit myös käyttää Trimmean-funktiota arvioimaan saman tulos.

Interkvartiilialueen laskeminen

Tietojen välinen kvartiilialue on alue, jonka "laatikko" kattaa laatikko- ja viiksikuvaajan tai enemmän täsmälleen tulos, kun datan ensimmäisen kvartiilin arvo vähennetään kolmannen kvartiilin arvosta kvartiili. Excel sisältää sisäänrakennetun ominaisuuden, jonka avulla voit laskea minkä tahansa kvartiilin tiedoillesi. Etsi varasolu ja kirjoita "=QUARTILE([tietoalue], [kvartiilinumero])" ja aseta solualue tiedoillesi, jossa lukee "[dataalue]" ja haluamasi kvartiili, jossa lukee "[kvartiili määrä]."

Päivän video

Jos sinulla on esimerkiksi tietoja soluissa A2–A101 ja haluat arvon ensimmäiselle kvartiilille, kirjoita "=QUARTILE(A2:A101, 1)" löytääksesi arvon. Argumentin ensimmäisessä osassa voit korostaa asiaankuuluvat solut hiirellä, mutta pilkun jälkeen sinun on kirjoitettava haluamasi kvartiilin numero. Kolmannelle kvartiilille, jolla on samat tiedot, kirjoitat "=QUARTILE(A2:A101, 3)" saadaksesi tuloksen.

Käytä toista tyhjää solua ja vähennä ensimmäisen kvartiilin solun arvo kolmannen kvartiilin solun arvosta. Jos ensimmäinen kvartiili on solussa C2 ja kolmas kvartiili on solussa D2, kirjoita "=D2-C2" saadaksesi tuloksen. Tämä on interkvartiilialue.

Outlier-analyysi Excelissä

Poikkeusarvojen selvittämiseksi voit nyt käyttää poikkeavien kaavan interkvartiiliväliä, joka ilmoittaa, että tietojen yläraja on kolmas kvartiili plus 1,5 kertaa kvartiiliväli, ja alaraja on ensimmäisen kvartiilin arvo miinus 1,5 kertaa interkvartiili alue.

Jos ensimmäinen kvartiiliarvo on C2:ssa, kolmas kvartiilin arvo on solussa D2 ja kvartiilien välinen alue on Kirjoita soluun E2 "=C2-(1.5 * E2)" löytääksesi alarajan ja "=D2+(1.5 * E2)" löytääksesi ylärajan. raja. Yleensä kirjoitat "=[ensimmäinen kvartiili] – (1,5 * [kvartiiliväli])" löytääksesi alarajan ja "=[kolmas kvartiili] + (1,5 * [kvartiiliväli])" löytääksesi ylärajan.

Kaikki alarajan alapuolella tai ylärajan yläpuolella on poikkeavaa.

Voit päättää poikkeavien testin Excelissä käyttämällä loogista "OR"-funktiota tunnistaaksesi, mitkä tietoluokkasi arvot ovat poikkeavia tehokkaasti. Syötä "=TAI([tietosolu]>[yläraja], [tietosolu]$F$2, A2

Jos A2:n arvo on ylärajan yläpuolella tai alarajan alapuolella, siinä näkyy "TRUE", mikä osoittaa, että arvo on poikkeava. Voit vetää tämän kaavan alas napsauttamalla solun oikeaa alakulmaa, jossa on kaava ja vetämällä se alas niin, että se päättyy viimeisen tietosolun viereen suorittaaksesi saman laskutoimituksen jokaiselle datapiste.

Voit myös korostaa tiedot ja siirtyä "Ehdollinen muotoilu" -kohtaan "Etusivu"-välilehden "Tyylit"-osiossa, jos haluat muuttaa poikkeavien muotojen muotoilua. Valitse "Uusi sääntö" ja korosta "Käytä kaavaa määrittääksesi muotoiltavat solut" -vaihtoehto. Kirjoita sama kaava kuin edellisessä kappaleessa ja napsauta sitten "Muotoile"-vaihtoehtoa valitaksesi ainutlaatuisen muotoilun poikkeaville arvoille.

Trimmeanin käyttö

"Trimmean"-toiminto on yksinkertaisempi tapa tunnistaa poikkeamat. Kirjoita "=TRIMMEAN([tietoalue], [osuus trimmaukseen])" käyttääksesi funktiota siten, että solualue sisältää datan "[tietoalue]" ja desimaalin tilalla. prosenttiosuus, jonka haluat leikata, jossa lukee "[suhde trimmaukseen]". Tämä poistaa ääriarvot ylä- ja alapuolelta ja laskee sitten keskiarvon niiden perusteella jäljelle jäänyt. Joten jos leikkasit 10 prosenttia, se poistaisi ylimmän 5 prosenttia ja alimman 5 prosenttia ennen keskiarvon laskemista.

Jos tiedot ovat A2:sta A101:een ja haluat leikata äärimmäistä 5 prosenttia arvoista, kirjoita "=TRIMMEAN(A2:A101, 0.05)" löytääksesi säädetyn keskiarvon. Voit leikata 15 prosenttia kirjoittamalla sen sijaan "=TRIMMEAN(A2:A101, 0.15)".