Sådan beregnes Outliers

En outlier er en bemærkelsesværdig anden observationsdata i numeriske termer fra de andre observationer i en prøve. Udtrykket anvendes i statistiske undersøgelser og kan pege på abnormiteter af datasættet eller fejl i den udførte måling. At vide, hvordan man beregner outliers er vigtigt for at sikre en tilstrækkelig forståelse af dataene og vil føre til mere korrekte konklusioner af undersøgelsen. Der er en meget enkel proces til beregning af dem i et givet sæt observationer.

trin

Billedbetegnelse Beregn udlæsere Trin 1
1
Lær at genkende et outlier potentiale. Før det beregnes, om en observationsdata er en outlier, er det altid nyttigt at undersøge datasættet og at genkende potentielle afvigere. For eksempel overveje et datasæt, der repræsenterer temperaturen på 12 forskellige objekter i et rum. Hvis 11 genstande har en temperatur omkring 21 ° C, men den tolvte (måske en ovn) har en temperatur på 150 ° C, kan en hurtig undersøgelse sige, at ovnen er en outlier.
  • Billedbetegnelse Beregn udlæsere Trin 2
    2

    Video: Excel 2010 - Finding the Quartiles, IQR and Upper & Lower fences

    Organiser observationsdata fra den mindste til den største. Fortsætter med ovenstående eksempel overveje følgende datasæt repræsenterer temperaturerne af forskellige objekter: {22, 21, 24, 21, 21, 20, 21, 23, 22, 150, 22, 20}. Dette sæt skal distribueres som: {20, 20, 21, 21, 21, 21, 22, 22, 22, 23, 24, 150}.
  • Billedbetegnelse Beregn udlæsere Trin 3
    3
    Beregn medianen af ​​datasættet. Medianen er observationsdataene placeret over den nederste halvdel af dataene og under den øverste halvdel. Hvis datasættet indeholder et jævnt antal observationer, skal de to udtryk i midten indregnes. I ovenstående eksempel er de to udtryk i mediet 21 og 22, så medianen er ((21 + 22) / 2) eller 21,5.
  • Video: Standardavvik

    Billedbetegnelse Beregn udlæsere Trin 4
    4


    Beregn den nedre kvartil. Dette punkt, kaldet Q1, er de observerede observationsdata under 25% af observationerne. I eksemplet ovenfor skal to udtryk igen betragtes igen, denne gang 21 og 21. Gennemsnittet af de to vil være ((21 21) / 2) eller 21.
  • Billedbetegnelse Beregn udlæsere Trin 5
    5
    Beregn topkvartilen. Dette punkt, kaldet Q3, er observationsdataene placeret over 25% af observationerne. Fortsat med vores eksempel fører gennemsnittet af de to data 22 og 23 til Q3, hvilket er 22,5.
  • Billedbetegnelse Beregn udlæsere Trin 6
    6
    Find de "interne barrierer" i datasættet. Det første skridt er at multiplicere forskellen mellem Q1 og Q3 (kaldet interkvartileområdet) med 1,5. I ovenstående eksempel er interkvartilområdet (22,5-21), det vil sige 1,5. Multiplicere denne værdi med 1,5 genererer 2,25. Tilføj dette nummer til Q3 og trækker fra Q1 for at opbygge barriererne. I dette eksempel vil de øvre og nedre indre barrierer være 24,75 og 18,75.
    • Alle observationsdata, der ligger uden for dette interval, betragtes som moderate afvigere. I datasættet i dette eksempel betragtes kun ovntemperaturen (150 ° C) som en moderat udleder.
  • Billedbetegnelse Beregn udlæsere Trin 7
    7
    Find de "ydre barrierer" af datasættet. Dette gøres på samme måde som interne barrierer, bortset fra at interkvartileområdet multipliceres med 3, i stedet for 1,5. Ved at multiplicere ovennævnte interkvartilstand med 3, har vi (1,5 * 3) eller 4,5. Således er de øvre og nedre ydre barrierer 27 og 16,5.
    • Enhver observationsværdi, der ligger uden for eksterne barrierer, betragtes som en ekstrem udleder. I dette eksempel er ovntemperaturen, 150 ° C, også en ekstrem outlier.
  • tips

    • Når outliers findes, skal du forsøge at forklare deres tilstedeværelse, før de kasseres fra datasættet - de kan pege på målefejl eller distributionsafvigelser.

    Nødvendige materialer

    • regnemaskine
    Del på sociale netværk:

    Relaterede
    © 2024 HodTari.com