728x90
반응형

Statistics/[강의정리] 통계학개론 6

[통계학개론]03강. R 내장함수 그래프와 요약통계량

그래프¶히스토그램점도표상자그림요약 통계량¶평균, 분산, 표준편차중앙값, 다섯수치요약사분위수 범위, 범위  hist()¶hist (x, breaks, main, xlab, ylab, xlim, ylim,.)X: 데이터 벡터breaks: 계급에 대한 정보계급의 개수계급을 나누는 값들의 벡터main: 그래프의 제목xlab: x축 제목ylab: y축 제목xlim: x축의 범위 (xlim=c(최소값, 최대값)ylim: y축의 범위  예제 2-6 In [ ]:score  In [ ]:hist(score)   In [ ]:hist(score,main="")    예제 2-7 In [ ]:rv  In [ ]:hist(rv, main="", xlab="CRP")   In [ ]:hist(rv, main="", xlab=..

[통계학개론] 03강. 데이터요약2

중앙값(median)- 관찰값의 개수가 짝수일경우 중앙값이 2개이므로 합산후 2로 나눈다.- 특이점의 영향을 거의 받지 않는다.- 분포가 한쪽으로 쏠려 있꺼나, 특이점이 존재하는 데이터를 요약할 떄 주로 사용된다.사분위수(quartiles)백분위수(percentile)p백분위수 : 전체 데이터의 p%가 이 값보다 작거나 같은 값1사분위수 = 25밴분위수2사분위수 = 50백분위수 = 중앙값3사분위수 =75백분위수다섯 수치요약(five-number summary):최소값, 1사분위수, 중앙값, 3사분위수, 최댓값 데이터의 중심위치와 퍼진 정도를 모두 파악할 수 있다상자그림(boxplot) 분포와 요약통계량평균: 분포의 무게중심대칭적인 분포의 경우 데이터를 잘 대표한다 분포가 기울어져 있거나 특이점이 있는 경..

[통계학개론] 02강_R 시각화(ggplot2 ) - 막대그래프, 원그래프

막대그래프그리기막대그래프 순서정렬 : fct_infreq()막대그래프 수치데이터 사용 :stat='identity'원그래프 In [ ]:install.packages('ggplot2')  Installing package into ‘/usr/local/lib/R/site-library’(as ‘lib’ is unspecified) In [ ]:install.packages('forcats')  Installing package into ‘/usr/local/lib/R/site-library’(as ‘lib’ is unspecified) In [ ]:library(ggplot2)library(forcats) # 막대 그래프 정렬  막대그래프 그리기¶질적변수 - 명목형변수 In [ ]:transp  In [..

[통계학개론] 02강. 데이터 요약1

1. 변수2. 질적 데이터의 요약-막대그래프 3. 양적 데이터의 요약 - 히스토그램 4. 양적 데이터의 요약-점도표, 평균, 분산1. 변수변수의 종류질적 변수(qualitative variable, 범주형 변수): 유한개 의 범주 중 하나의 값을 취하는 변수 ex) 성별, 학력양적 변수(quantitative variable): 양적인 수치로 측 정되는 변수 ex) 나이, 몸무게질적 변수의 종류명목형 변수(nominal variable): 범주들에 의미 있는 순서 를 정할 수 없는 질적 변수 ex) 성별순서형 변수(ordinal variable): 범주 간의 의미 있는 순서 를 정할 수 있는 질적 변수 ex) 학력양적 변수의 종류연속형 변수(continuous variable): 어떤 실수 구간 안의 모..

[통계학개론] 01강. 통계학의 주요 개념

통계학:불확실한 현상을 이해하기 위해 데이터를 수집하고,데이터 패턴을 요약, 분석하여분확실한 현상에 대한 결론을 찾는 학문기술통계: 데이터가 가진 특징과 패턴을 정확하고 효과적으로드러내기 위한 통계적인 방법을 사용ex) 국민의 키와 몸무게 평균 중앙값, 사분위수등 요약통계량을 구하고그래프를 작성, 미세먼지, 판매량추측통계(추론통계): 데이터를 이용하여 우리 관심 대상에 대해 추측하고 그 추측의 신뢰성을 계량화ex) 임금 노동자의 평균연봉을 알아내기위해서 랜덤 표집한 300명의 연봉을 조사하여평균연본 추정치와 95%신뢰구간을 구한다.ex) 새로 개발된 항암제의 효과를 알아보기 위하여무작위 배정 임상시험에서 관측한 치료군과 대조군의 암재발률을 비교한다.데이터의 기본요소단위(unit) : 관측되는 개별 대상변..

[통계학개론] R기초

디렉토리 셋팅¶현재 위치 확인¶In [ ]:getwd()'/content'작업 디렉토리 셋팅하기¶In [ ]:setwd("/content") # / 혹은 \\ 로 경로 구분 사용.setwd("\\content") # Rstudio를 종료하면 헤제되기 때문에 다시 실행시 재설정 해주어야한다.R의 데이터 형태와 연산¶객체의 생성과 저장¶In [ ]:a 1 # b 1 # 단축키 : (masos) 'opt' + '-'c a + bVector (벡터)¶In [ ]:a c(1,2,3,4,5)b 1:5c seq(1,10,2) # 1에서 10까지 2 단위로d rep(10,5) # 10을 5번 반속e c(d,c)f c(1:4, seq(5,20,3))cat(' a : ',a,'\n','b..

728x90
반응형