Byeong hwi

Byeong hwi

어려운 내용, 쉽게 정리해보겠습니다 :)

토글 메뉴

Github Blog
- 블로그 만들기(4)
- 블로그 커스텀(5)
Statistics
- 기초 통계(2)
Programming
- SQL(0)

[기초 통계] 통계학이란, 기초 통계 용어 정리

📍 통계학이란?

통계학은 데이터를 수집, 분석, 요약, 추론 하는 학문입니다.
표본을 추출해서 모집단을 추론하는 학문이 바로 통계학입니다.
우리나라 20~30대 남성의 평균 키를 추정해야 할 때 모든 20~30대 남성에 대한 키 데이터를 얻기는 힘듭니다.
2,000 ~ 3,000명의 키 데이터를 얻고 모든 20~30대 남성에 대한 키 데이터를 맞추는 것이 통계의 기본 원리!

다음 통계학은 현대통계학에서 핵심이 되는 분야입니다.

추측통계학 (Inferential Statistics): 자료에 내포되어 있는 정보를 분석하여 불확실한 사실에 대한 추론하는 학문
- 모델링이 대표적인 추측통계학입니다.
기술통계학 (Descriptive Statistics): 자료를 수집하고 정리하여 도표나 표를 만들고, 자료를 요약하여 대표값이나 변동의 크기 등을 구하는 학문
- EDA, 시각화가 대표적인 기술통계학입니다.

📍 기본적인 통계 용어

모집단

sample

모집단 (Population)
- 통계학에서 연구자의 관심에 되는 집단

모수 (Parameter)
- 모집단에 대한 수치적인 요약
- EX) 모평균, 모비율, 모분산 … 알 수 없는 값

모 평균 (Population Mean)
$E(X) = \frac{\sum X}{N} = \mu$
- 데이터의 값을 모두 더하고 전체 데이터 수로 나눕니다.

모 분산 (Population Variance)
$Var(X) = E((X-u)^2) = \frac{\sum(X-u)^2}{N} = \sigma^2 $
- 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 위치해있을까?를 의미합니다.
- 데이터가 퍼진 정도도 의미합니다.
- 값을 제곱한 것의 평균 - 평균의 제곱이라고 달달 외웠던 기억이 있네요.
모 표준편차 (Population Standard Deviation)
- 분산에 루트를 씌운 값
- 표준편차가 존재하는 이유는 분산의 값이 과도하게 펌핑되기 때문입니다. $\sigma$를 사용합니다.

표본집단

통계량 (Statistic)
- 모수를 추정하기 위해 표본을 이용해서 만든 값입니다.
- 표본평균, 표본분산, 표본표준편차 … 연구자가 알 수 있는 값입니다.

표본평균 (Sample Mean)
$\bar{X} = \frac{\sum{X_i}}{n}$

표본분산(Sample Variance)
$S^2 = \displaystyle\sum_{i=1}^{n}(X_i - \bar{X})^2 * \frac{1}{n-1}$
- 편차 제곱의 합을 자료의 수로 나눈 값입니다.

❓ 왜 $n-1$로 나누는가?
편차의 합은 일단 0입니다. 따라서 $n$개의 편차 중에서 $(n-1)$개의 편차를 알고 있다고 가정한다면..
나머지 1개는 알아서 결정됩니다. 합은 0이니까요! 그래서 $n-1$로 나눠줍니다.
또 다른 이유가 존재하는데, 향후 심화적인 포스팅으로 정리해보겠습니다.

표본표준편차
- 표본분산의 제곱근 형태입니다.

📍 참고사항

표본의 통계량을 통해 모집단의 모수를 추정하는 것이 제일 중요합니다.
표준편차가 존재하는 이유는 분산의 과도한 크기를 완화시켜줍니다.
- 데이터가 cm인 경우 제곱을 하게되면 단위의 오류가 발생합니다.
  단위가 변하면 추측하고자 하는 단위까지 변경되므로 큰 이슈가 발생하겠죠.
  따라서 우리는 이러한 오류를 범하지 않기 위해 표준편차를 사용합니다.

댓글남기기