📍 통계학이란?

  • 통계학은 데이터를 수집, 분석, 요약, 추론 하는 학문입니다.
  • 표본을 추출해서 모집단을 추론하는 학문이 바로 통계학입니다.
  • 우리나라 20~30대 남성의 평균 키를 추정해야 할 때 모든 20~30대 남성에 대한 키 데이터를 얻기는 힘듭니다.
  • 2,000 ~ 3,000명의 키 데이터를 얻고 모든 20~30대 남성에 대한 키 데이터를 맞추는 것이 통계의 기본 원리!

다음 통계학은 현대통계학에서 핵심이 되는 분야입니다.

  1. 추측통계학 (Inferential Statistics): 자료에 내포되어 있는 정보를 분석하여 불확실한 사실에 대한 추론하는 학문
    • 모델링이 대표적인 추측통계학입니다.
  2. 기술통계학 (Descriptive Statistics): 자료를 수집하고 정리하여 도표나 표를 만들고, 자료를 요약하여 대표값이나 변동의 크기 등을 구하는 학문
    • EDA, 시각화가 대표적인 기술통계학입니다.



📍 기본적인 통계 용어

모집단

sample

  • 모집단 (Population)
    • 통계학에서 연구자의 관심에 되는 집단


  • 모수 (Parameter)
    • 모집단에 대한 수치적인 요약
    • EX) 모평균, 모비율, 모분산 … 알 수 없는 값


  • 모 평균 (Population Mean)
    $E(X) = \frac{\sum X}{N} = \mu$
    • 데이터의 값을 모두 더하고 전체 데이터 수로 나눕니다.


  • 모 분산 (Population Variance)
    $Var(X) = E((X-u)^2) = \frac{\sum(X-u)^2}{N} = \sigma^2 $
    • 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 위치해있을까?를 의미합니다.
    • 데이터가 퍼진 정도도 의미합니다.
    • 값을 제곱한 것의 평균 - 평균의 제곱이라고 달달 외웠던 기억이 있네요.
  • 모 표준편차 (Population Standard Deviation)
    • 분산에 루트를 씌운 값
    • 표준편차가 존재하는 이유는 분산의 값이 과도하게 펌핑되기 때문입니다. $\sigma$를 사용합니다.

표본집단

  • 통계량 (Statistic)
    • 모수를 추정하기 위해 표본을 이용해서 만든 값입니다.
    • 표본평균, 표본분산, 표본표준편차 … 연구자가 알 수 있는 값입니다.


  • 표본평균 (Sample Mean)
    $\bar{X} = \frac{\sum{X_i}}{n}$


  • 표본분산(Sample Variance)
    $S^2 = \displaystyle\sum_{i=1}^{n}(X_i - \bar{X})^2 * \frac{1}{n-1}$
    • 편차 제곱의 합을 자료의 수로 나눈 값입니다.

❓ 왜 $n-1$로 나누는가?
편차의 합은 일단 0입니다. 따라서 $n$개의 편차 중에서 $(n-1)$개의 편차를 알고 있다고 가정한다면..
나머지 1개는 알아서 결정됩니다. 합은 0이니까요! 그래서 $n-1$로 나눠줍니다.
또 다른 이유가 존재하는데, 향후 심화적인 포스팅으로 정리해보겠습니다.


  • 표본표준편차
    • 표본분산의 제곱근 형태입니다.

📍 참고사항

  • 표본의 통계량을 통해 모집단의 모수를 추정하는 것이 제일 중요합니다.
  • 표준편차가 존재하는 이유는 분산의 과도한 크기를 완화시켜줍니다.
    • 데이터가 cm인 경우 제곱을 하게되면 단위의 오류가 발생합니다.
      단위가 변하면 추측하고자 하는 단위까지 변경되므로 큰 이슈가 발생하겠죠.
      따라서 우리는 이러한 오류를 범하지 않기 위해 표준편차를 사용합니다.

카테고리:

업데이트:

댓글남기기