통계 분석의 활용
기술통계화 추론통계
- 변수의 종류에 따라 분석하는 모형이 다르다
회귀분석 Regression Analysis
- 변수와 변수 사이의 관계를 통계적으로 분석하는 방법
- 독립변수 값에 의한 종속변수 값을 예측하기 위해 사용 - 단순회귀 분석 - 하나의 종속변수(Y)와 하나의 독립변수(X)간의 관계분석 - y = ax + b 형태 - 다중회귀 분석 - 하나의 종속변수(Y)와 둘 이상의 독립변수(X1, X2, …)간의 관계 분석 - y = ax1 + bx2 + c 형태
- 독립변수에 의한 종속변수 변화량을 근사한 방정식이기 때문에 기울기가 같더라도 측정값의 분포는 다를 수 있음
- 결정계수(R^2)로 나타냄
결정계수 R^2 ; coefficient of determination
- 추정한 선형 모형의 적합도를 나타내는 척도로 사용
- 즉 독립변수가 종속변수의 몇 %인가를 설명하는 수치
- ex) 0.63이라면 63% 적합성을 갖음
- 0이면 기울기는0이고 1이면 오차는 0
- 선형 회귀분석에서 '전체 제곱합 중에서 회귀 제곱합이 나타내는 비중’을 의미
- 0 <= R^2=SSR/SST <= 1
- SSR : 회귀 제곱합
- SST : 총 제곱합
- SSE : 잔차 제곱합
- 계산방법
- 최소자승법에 의한 수학적으로 계싼
- 측정갑과 임의의 수직 거리의 제곱의 총 합이 최소가 되는 방정식 도출
- Excel에서 LINEST(Y,X) 함수 사용
- 최소자승법에 의한 수학적으로 계싼
F값의 이해
- F 값은 모형 적합도를 나태냄
- 0.05보다 작다면 적합
- 0.05보다 크면 부적합
- 즉 0.05 보다 커야 회귀식이 유의미함
SPSS에서 유의사항 (R 같은 것)
- 공선성 : 독립변수 간에 상관성이 높아 회귀분석에 적합하지 않음
- Cook의 통계량 값이 1.0 이상이면 이상점으로 간주
- 잔차의 등분산성, 독립성, 정규성 검증
상관계수 correlation coefficient
- 연속형 두 변수의 관련성의 세기 분석에 사용
- -1 <= r <= 1
- Pearson 상관계수
- 모집단의 분포가 정규분포에 가까우면 사용
- 두 변수가 양적자료인 경우 사용
- Spearman 상관계수
- 모집단이 비정규분포를 나타낼 때 사용
- 두 변수 중 하나라도 순위척도인 경우
언제사용할까?
-
선형회귀분석
- 아버지의 혈압과 아들의 혈압 관계
- 입원기간과 수술시간의 관계
- 혈압과 연령의 관계
-
로지스틱 회귀분석
- 경제적 수입과 삶의 질의 정도와의 관계
- 통증과 암의 진행단계와의 관계
-
회귀분석은 종속변수와 독립변수 모두 양적 변수이어야 함
-
종속변수가 질적이고 독립변수가 양적이면 로지스틱 회귀분석 사용