[데이터 분석] 통계 분석을 위한 기초 개념 정리

통계 분석을 위한 기초 개념 정리

데이터 분석을 위해선 통계학적 개념들이 수반된다. 앞서 작성한 데이터 분석이란 무엇인가 포스팅에서 언급된 것처럼 수로 측정된 현상을 설명하고 요약하기 위해서는 통계가 필수적으로 수반된다. 이에 나는 기초적인 개념을 정리하는 것이 필요하다고 느껴 글을 작성하였다.

개념 정리

기술 통계와 통계적 추론 Descriptive Statistics and Statistical Inference

기술 통계는 측정이나 실험을 통해 수집한 자료를 정리, 요약, 해석하여 통계적 결과를 도출하는 것이다. 기술 통계를 얻은 결과로 모집단의 특성을 추출할 수 있는데, 이 것을 통계적 추론 또는 추론 통계라고 한다.

통계적 추론에는 추정, 가설 검정이 있다.

  • 추정(Estimation) 은 모수(모집단의 특성)을 분석하여 모집단을 추론하는 것이다.
  • 가설 검정(Hypothesis Test) 은 대상 집단에 대해 설정한 가설이 맞는지 여부를 결정하는 방법론이다.

대푯값(중심경향치, Central Trendency)

대푯값은 주어진 데이터를 대표하는 특정 값을 말한다. 대푯값은 자료의 중심 경향이나 자료 분포의 중심 위치를 나타내며 일반적으로는 평균, 중앙값, 최빈값을 이용한다.

평균 Mean

데이터셋의 산술 평균을 의미한다. 일반적으로 데이터의 값들을 모두 더한 후 그 크기로 나눠 값을 구할 수 있다.

엑셀에서 평균을 구하기 위해서는 AVERAGE 또는 AVERAGEA 함수를 사용한다.

중앙값 Median

정렬된 데이터셋에서 중간에 위치한 값을 의미한다. 이 때 데이터셋은 오름차순으로 정렬된다. 중앙값을 구할 때 데이터셋의 크기가 홀수이냐 짝수이냐에 따라 그 방법이 달라진다.

  • 홀수인 경우, 데이터셋의 가운데((n+1)/2)에 위치한 값을 중앙값으로 계산한다.
  • 짝수인 경우, 데이터셋의 가운데에 위치한 두 수를 더한 다음 2로 나눠 계산한다.

엑셀에서 중앙값을 구하기 위해서는 MEDIAN 함수를 사용한다.

최빈값 Mode

데이터셋에서 가장 빈번하게 나타낸 값을 의미한다. 이 값이 여러개인 경우에는 다봉 분포(Multimodal Distribution)를 갖는다.

엑셀에서 최빈값을 구하기 위해서는 MODE 함수를 사용한다. 경우에 따라 MODE.SNGL 또는 MODE.MULT를 이용하여 구할 수 있다. MODE.SNGL은 하나의 최빈값을 구하기 위해 사용된다. MODE.MULT는 여러개의 최빈값을 구하기 위해 사용된다.

왜도 Skewness

데이터 분포의 비대칭성을 나타내는 척도로, 이를 통해 데이터의 값이 어느 방향으로 치중되어있는지를 알 수 있다. 왜도가 음수인 경우에는 중앙값을 포함한 자료가 오른쪽에, 양수인 경우 왼쪽에 분포됨을 의미한다. 정규 분포와 같이 대칭 구조를 갖는 경우 이 값이 0이다.

엑셀에서 왜도를 구하기 위해서는 SKEW 함수를 사용한다.

첨도 Kurtosis

데이터 분포의 꼬리가 두꺼운 정도를 나타내는 척도이다. 기본 정의에 따르면 이 값이 3일 때 정규 분포를 따르지만, 일반적으로 정규분포의 첨도를 0으로 만들기 위해 3을 빼고 정의하기도 한다. 정규 분포가 0이 되게 정의하는 첨도를 excess kurtosis라고 한다.

엑셀에서 첨도를 구하기 위해서는 KURT 함수를 사용한다.


변산성 Variability

변산성은 데이터가 중심으로부터 얼마나 퍼져있는지를 나타내는 성질을 의미한다.

분산 Variance

분산은 데이터셋의 분포가 평균에 상대적인지를 나타내는 값으로, 평균과 그 값들의 차의 제곱의 평균으로 구할 수 있다.

엑셀에서 분산을 구하기 위해서는 VAR.P 또는 VAR.S 함수를 사용한다. VAR.P는 데이터 범위가 전체 모집단인 경우에 사용된다. VAR.S는 데이터 범위가 전체 모집단에서 채취한 표본 집단인 경우에 사용된다.

VAR 함수를 이용하는 경우 VAR.S와 동일하게 처리한다.

표준 편차 Standard Devication

표준 편차는 평균과 각 데이터 포인트들간 얼마나 차이 나는지에 대하여 나타낸 표준 값이다. 표준 편차가 작을 수록 평균값과 변량들의 거리가 가깝다는 것이며, 이는 분포 상태가 고르다는 것을 의미한다. 표준 편차는 분산의 제곱근으로 정의할 수 있다.

엑셀에서 표준 편차를 구하기 위해서는 STDEV.P 또는 STDEV.S 함수를 사용한다. STDEV.P는 데이터 범위가 전체 모집단(Population)인 경우에 사용된다. STDEV.S는 데이터 범위가 전체 모집단에서 채취한 표본 집단인 경우에 사용된다.

STDEV 함수를 이용하는 경우 STDEV.S와 동일하게 처리한다.

표준 오차 Standard Error

표준 오차는 모집단에서 임의로 채취한 표본에 대하여 표본들의 표준 편차에 대한 추정치이다. 이는 채취한 표본 집단이 모집단을 추정하기에 적절한가를 의미한다. 표준 오차는 표준 편차를 표본 크기의 제곱근으로 나눠 그 값을 구할 수 있다.

엑셀에서 표준 오차를 구하기 위해서는 표준 편차를 구하기 위한 함수인 STDEV와 제곱근을 구하는 함수인 SQRT를 사용한다.


정규 분포 Normal Distribution

정규 분포는 대칭적인 종모양의 곡선을 갖는 분포로 표본의 크기가 충분히 클 때 정규 분포를 따른다는 중심 극한 정리와 관련있다.

엑셀에서 정규 분포를 나타내기 위해서는 NORM.DIST 함수를 사용한다. 함수의 인자로 분포를 구하려는 값과 분포의 산술 평균, 분포의 표준 편차, 누적 여부(논리값)를 사용한다.


변수들간의 관계

인과 관계 Causality

한 사건(원인)이 다른 사건(결과)에 영향을 끼치는 두 사건 사이의 관계를 의미한다. 인과 관계를 검증하기 위해서는 회귀 분석을 이용한다.

공분산 Covariance

공분산은 두 변수가 얼마나 연관되어 나타나는 지를 정량적으로 측정한 것을 의미한다. 공분산의 값이 음수인 경우 두 변수의 값은 반비례적인 관계를, 양수인 경우 비례적인 관계를 갖는다. 이 값이 0인 경우 두 변수는 연관성이 없음을 의미한다.

엑셀에서 공분산을 구하기 위해서는 COVARIANCE.P 또는 COVARIANCE.S를 사용한다. COVARIANCE.P는 데이터 범위가 전체 모집단인 경우에 사용된다. COVARIANCE.S는 데이터 범위가 전체 모집단에서 채취한 표본 집단인 경우에 사용된다.

상관 관계 Correlation

-1에서 1까지의 범위를 갖는 두 변수 사이의 관계를 측정한 것으로 공분산을 정규화한 것이다. 이는 변수의 절대적 크기에 영향을 받지 않도록 하기 위함이다. 두 변수 간의 상관 관계 정도를 수치로 나타낸 것을 상관 계수(Correlation Coefficient)라고 한다.

상관 계수의 크기가 클 수록 두 변수의 상관 관계가 강하다고 할 수 있다. 이 값이 0에 가깝다면 두 변수 간에는 상관 관계가 거의 없음을 의미한다.

엑셀에서 상관 계수를 측정하기 위해서는 CORREL 함수를 사용한다.


회귀 Regression

둘 이상의 변수에 대하여 한 변수가 다른 변수에 영향을 줄 때 이 사이에 관계가 존재함을 의미한다.

선형 회귀 Linear Regression

선형 회귀는 연속적으로 나타나는 둘 이상의 변수 사이의 관계가 선형적으로 나타나는 것을 의미한다. 다른 변수에 영향을 주는 변수를 독립변수 라고 하며, 이에 영향을 받은 값을 종속 변수 라고 한다.

선형 회귀를 실행하기 위하여 다음 과정을 수행한다.

  1. 모델의 인과성과 방향성을 이해한다.
  2. 데이터와 데이터의 범주, 누락된 데이터와 이상치를 확인한다.
    • 이상치(Outlier) 는 다른 관측값에 비해 확연하게 차이가 나는 데이터 포인트를 의미한다. 이를 확인하기 위해 표준 편차와 사분범위를 이용한다.
    • 가변수(Dummy Variable) 는 범주형 변수를 효과적으로 나타내기 위해 값을 0 또는 1을 갖는 것을 의미한다.
  3. 단순 분석의 경우 독립-종속 변수와 독립-독립 변수를 비교할 때 어떤 영향을 미치는지를 확인한다.
    • 상관 관계를 알아내기 위하여 산점도(Scatter Plot)를 사용한다.
    • 두 개 이상의 독립 변수가 높은 상관 관계를 갖는 다중공선성(Multicollinearity) 이 발생한다. 다중공선성의 정도를 파악하기 위해서는 분산 팽창 요인(Variance Inflation Factor, VIF)을 사용한다. 이 값이 5보다 크면 높은 상관 관계를, 10보다 크면 확실하게 다중공선성이 존재하다는 것을 측정할 수 있다.
    • 교호작용항(Interaction Term) 은 한 독립 변수가 다른 독립 변수에 의존할 때 기울기의 변화를 의미한다.
  4. 다중 선형 회귀의 경우 모델과 올바른 변수를 확인한다.
  5. 잔차 분석(Residual Analysis)를 수행한다.
    • 잔차는 실제 관측값과 예측값과의 차이를 의미한다.
    • 잔차의 정규성과 정규 분포를 확인한다.
    • 등분산성(Homoscedasticity) 은 오차항이 모든 독립 변수에 대하여 일치하고 잔차의 평균이 회귀 선 전체에서 동일하다는 것을 의미한다.
  6. 회귀 결과물을 해석한다.
    • 결정 계수(R-Squard) 는 종속 변수의 변화가 독립 변수에 의해 설명되는 지를 나타내는 통계적 척도이다. 결정 계수가 높을 수록 관찰된 데이터와 적합값(Fitted Value, 모델에 이해 예측된 값) 사이의 차이가 작다.
    • p-값(유의확률, p-value) 은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다.
    • 회귀 방정식(Regression Equation) 은 회귀선의 대수적 표현이다.

참고

The 8 Basic Statistics Concepts for Data Science

개발자가 데이터 분석 준전문가 되기

You might also enjoy