Credit imagine: nd3000/iStock/GettyImages
Când analizați datele, valorile aberante pot modifica rezultatele și le pot face mai puțin fiabile. De exemplu, dacă una sau mai multe dintre valorile dvs. sunt substanțial mai mari decât majoritatea datelor, acestea cresc media, ceea ce ar putea să nu reflecte datele în ansamblu. Eliminarea acestor puncte de date periferice este, prin urmare, un pas important în efectuarea de calcule statistice fiabile. Fără o funcție dedicată pentru valori aberante, cel mai simplu mod de a efectua un test de valori aberante în Excel este să utilizați interval interquartil pentru a identifica valorile aberante, dar puteți folosi și funcția Trimmean pentru a aproxima aceleași rezultat.
Calcularea intervalului intercuartil
Intervalul intercuartil de date este intervalul acoperit de „caseta” pe un diagramă cu casete și mustață sau mai multe tocmai rezultatul scăderii valorii primei quartile a datelor din cea a celei de-a treia quartila. Excel conține o funcție încorporată pentru a calcula orice quartile pentru datele dvs. Găsiți o celulă de rezervă și tastați „=QUARTILE([interval de date], [număr cuartil])” și puneți intervalul de celule pentru datele dvs. unde scrie „[interval de date]” și quartila dorită unde scrie „[quartil număr]."
Videoclipul zilei
De exemplu, dacă aveți date în celulele A2 până la A101 și doriți valoarea pentru primul quartil, introduceți „=QUARTILE(A2:A101, 1)” pentru a găsi valoarea. Pentru prima parte a argumentului, puteți evidenția celulele relevante cu mouse-ul, dar după virgulă, trebuie să scrieți numărul quartilei dorite. Pentru a treia quartila cu aceleași date, tastați „=QUARTILE(A2:A101, 3)” pentru a obține rezultatul.
Folosind o altă celulă goală, scădeți valoarea primei celule cuartile din valoarea celei de-a treia celule cuartile. Dacă primul cuartil este în celula C2 și al treilea cuartil este în celula D2, tastați „=D2-C2” pentru a obține rezultatul. Acesta este intervalul intercuartil.
Analiza valori aberante în Excel
Pentru a găsi valori aberante, puteți utiliza acum intervalul intercuartil în formula valorii aberante, care afirmă că limita superioară a datelor este valoarea a treia cuartilă plus de 1,5 ori intervalul intercuartil, iar limita inferioară este valoarea primului cuartil minus de 1,5 ori intervalul intercuartil gamă.
Dacă prima valoare cuartilă este în C2, a treia valoare cuartilă este în celula D2, iar intervalul intercuartil este în celula E2, ar trebui să tastați „=C2-(1.5 * E2)” pentru a găsi limita inferioară și „=D2+(1.5 * E2)” pentru a găsi limita superioară limită. În general, introduceți „=[first quartile] – (1,5 * [interquartile range])” pentru a găsi limita inferioară și „=[terth quartile] + (1,5 * [interquartile range])” pentru a găsi limita superioară.
Orice lucru sub limita inferioară sau peste limita superioară este o valoare anormală.
Pentru a finaliza testul valori aberante în Excel, utilizați funcția logică „SAU” pentru a identifica ce valori din clasa dvs. de date sunt valori aberante într-un mod eficient. Introduceți „=OR([celulă de date]>[limită superioară], [celulă de date]$F$2, A2
Dacă valoarea din A2 este peste limita superioară sau sub limita inferioară, se afișează „TRUE”, indicând faptul că valoarea este o valoare anormală. Puteți trage această formulă în jos făcând clic în colțul din dreapta jos al celulei cu formula și trăgând-o în jos, astfel încât să se termine lângă celula de date finală pentru a efectua același calcul pentru fiecare punct de date.
De asemenea, puteți evidenția datele și mergeți la „Formatare condiționată” în secțiunea „Stiluri” din fila „Acasă” dacă doriți să modificați formatarea valorilor aberante. Alegeți „Regulă nouă” și evidențiați opțiunea „Utilizați o formulă pentru a determina ce celule să formatați”. Tastați aceeași formulă ca în paragraful anterior și apoi faceți clic pe opțiunea „Format” pentru a alege formatarea unică pentru valori aberante.
Folosind Trimmean
Funcția „Trimmean” este o modalitate mai simplă de a identifica valorile aberante. Tastați „=TRIMMEAN([interval de date], [proporție cu tăierea])” pentru a utiliza funcția, cu intervalul de celule care conțin date în locul „[interval de date]” și o zecimală procentul pe care doriți să-l decupați acolo unde scrie „[proporție la tăiere]”. Aceasta elimină valorile extreme din partea de sus și de jos și apoi se calculează media pe baza acestora rămas. Deci, dacă ați tăiat 10 la sută, ar elimina primele 5 procente și cele de jos 5 procente înainte de a calcula media.
Dacă datele rulează de la A2 la A101 și doriți să tăiați extremele 5 procente din valori, introduceți „=TRIMMEAN(A2:A101, 0,05)” pentru a găsi media ajustată. Puteți tăia 15 la sută scriind în schimb „=TRIMMEAN(A2:A101, 0,15)”.