본문 바로가기

포트폴리오

빅데이터 기술의 기반이 되는 표본 추출 및 모집단의 추정

728x90
반응형
SMALL

충암고등학교 김재형


주제: 빅데이터 기술의 기반이 되는 표본 추출 및 모집단의 추정

1. 관련 단원명

모집단과 표본, 모집단의 추정

 

2. 주제를 정하게 된 계기, 목적

4차 산업혁명 시대가 되면서 데이터가 곧 석유와 같이 하나의 자원으로서의 기능을 하게 되었다. 모든 데이터를 수집하고, 그 데이터를 처리하는 것은 여러 가지 제약이 많고 현실적으로도 어려운 부분이 많기 때문에 실제로는 표본을 추출한다. 표본에서 얻은 정보를 이용하여 모집단의 특성을 나타내는 값인 모평균, 모 표준편차 등을 추측하는 것을 추정이라 하는데, 이는 빅데이터 기술에서 핵심이 되는 것이라 할 수 있다. 그래서 모집단과 표본, 모집단의 추정에 대해서 알아보고자 한다.

 

3. 내용 요약정리

1) 여러 가지 표본 추출 방법

(1) 임의추출 : 모집단의 각 대상이 표본에 포함될 확률이 동일하게 되도록 표본을 추출하는 방법

(2) 복원추출 : 한 번 추출된 자료를 다시 되돌려 놓은 후 다음 자료를 뽑는 추출방법

(3) 비복원추출 : 한 번 추출된 자료를 다시 되돌려 놓지 않고 다음 자료를 뽑는 추출 방법

표본 추출 방법에는 교과서에서 소개된 위의 세 가지 방법 외에도 여러 방법이 있다. 크게 무작위추출과 유의추출로 나누어볼 수 있는데, 무작위추출에는 단순무작위추출, 계통추출, 층화추출, 부차추출, 다단계추출, 군락추출, 등확률추출, 확률비례추출, 이중추출 등이 있고, 유의추출에는 전형추출, 할당추출, 스노우볼추출 등이 있다.

 

2) 신뢰도와 신뢰구간

표본평균의 값을 라고 할 때, 가 신뢰도 95%인 모평균 m의 신뢰구간이다.

 

신뢰도 99%인 경우에는 으로 바뀌게 된다.

 

이는 표준정규분포표에서 

이고,

 

이기 때문이라고 할 수 있다.

 

4. 준비하면서 느끼게 된 점

평소에 통계적인 데이터가 얼마나 신뢰도가 있는 값인지 의문이 들 때가 많았다. 기상청에서 제공하는 데이터도 기상 데이터를 입력받는 스테이션 근처에서만 성립하는 것이고, 동네가 큰 경우에는 내가 있는 곳 주변의 기상정보와 기상청에서 제공하는 정보가 확연히 다르다는 생각이 들 때가 많았다. 이번에 빅데이터 기술의 기반이 되는 표본 추출 및 모집단의 추정에 대해서 학습하고 공부하면서 표준정규분포표를 기반으로 신뢰도와 신뢰구간을 계산하는 방법을 익힐 수 있어서 좋았고, 평소에 궁금했던 표본 추출 방법에 대해서도 재미있게 조사할 수 있었다. 앞으로 통계적인 조사를 하거나 빅데이터 연구를 할 때 이런 기초적인 지식들이 밑바탕이 되어 좋은 연구결과를 이끌어낼 수 있도록 하는 데에 쓰고 싶다.


반응형
LIST