Statistics/[강의정리] 통계학개론

[통계학개론] 03강. 데이터요약2

눈곱만큼도모름 2024. 5. 6. 00:16
728x90
반응형

중앙값(median)

- 관찰값의 개수가 짝수일경우 중앙값이 2개이므로 합산후 2로 나눈다.
- 특이점의 영향을 거의 받지 않는다.
- 분포가 한쪽으로 쏠려 있꺼나, 특이점이 존재하는 데이터를 요약할 떄 주로 사용된다.

사분위수(quartiles)

백분위수(percentile)

p백분위수 : 전체 데이터의 p%가 이 값보다 작거나 같은 값
1사분위수 = 25밴분위수
2사분위수 = 50백분위수 = 중앙값
3사분위수 =75백분위수

다섯 수치요약(five-number summary):

최소값, 1사분위수, 중앙값, 3사분위수, 최댓값
 데이터의 중심위치와 퍼진 정도를 모두 파악할 수 있다

상자그림(boxplot)

 

분포와 요약통계량

평균: 분포의 무게중심
대칭적인 분포의 경우 데이터를 잘 대표한다
분포가 기울어져 있거나 특이점이 있는 경우 데이터를 잘 대 표하지 못한다

중앙값: 데이터를 크기 순으로 정렬했을 때 가장 가운데에 위치하는 값
분포가 기울어져 있거나 특이점이 있는 경우 많이 쓰인다

최빈값: 빈도가 가장 높은 관찰값
여러개 있을 수도, 하나도 없을 수도 있다
분포의 중심위치에서 멀리 떨어져있을 수도 있다

 

 

분산: 편차의 제곱의 평균
표준편차: 분산의 제곱근
범위: 최댓값-최솟값
사분위수 범위: 3사분위수-1사분위수

이 값들이 클 수록 데이터의 분포가 많이 퍼진 것이다 분산, 표준편차, 범위는 특이점의 영향을 크게 받는다
사분위수 범위는 특이점에 크게 영향을 받지 않는다

평균이 같고 분산이 다른 두 분포

 

728x90
반응형