충암고등학교 김재형
주제: 빅데이터 기술의 기반이 되는 표본 추출 및 모집단의 추정
1. 관련 단원명
모집단과 표본, 모집단의 추정
2. 주제를 정하게 된 계기, 목적
4차 산업혁명 시대가 되면서 데이터가 곧 석유와 같이 하나의 자원으로서의 기능을 하게 되었다. 모든 데이터를 수집하고, 그 데이터를 처리하는 것은 여러 가지 제약이 많고 현실적으로도 어려운 부분이 많기 때문에 실제로는 표본을 추출한다. 표본에서 얻은 정보를 이용하여 모집단의 특성을 나타내는 값인 모평균, 모 표준편차 등을 추측하는 것을 추정이라 하는데, 이는 빅데이터 기술에서 핵심이 되는 것이라 할 수 있다. 그래서 모집단과 표본, 모집단의 추정에 대해서 알아보고자 한다.
3. 내용 요약정리
1) 여러 가지 표본 추출 방법
(1) 임의추출 : 모집단의 각 대상이 표본에 포함될 확률이 동일하게 되도록 표본을 추출하는 방법
(2) 복원추출 : 한 번 추출된 자료를 다시 되돌려 놓은 후 다음 자료를 뽑는 추출방법
(3) 비복원추출 : 한 번 추출된 자료를 다시 되돌려 놓지 않고 다음 자료를 뽑는 추출 방법
표본 추출 방법에는 교과서에서 소개된 위의 세 가지 방법 외에도 여러 방법이 있다. 크게 무작위추출과 유의추출로 나누어볼 수 있는데, 무작위추출에는 단순무작위추출, 계통추출, 층화추출, 부차추출, 다단계추출, 군락추출, 등확률추출, 확률비례추출, 이중추출 등이 있고, 유의추출에는 전형추출, 할당추출, 스노우볼추출 등이 있다.
2) 신뢰도와 신뢰구간
표본평균의 값을 라고 할 때, 가 신뢰도 95%인 모평균 m의 신뢰구간이다.
이는 표준정규분포표에서
이고,
4. 준비하면서 느끼게 된 점
평소에 통계적인 데이터가 얼마나 신뢰도가 있는 값인지 의문이 들 때가 많았다. 기상청에서 제공하는 데이터도 기상 데이터를 입력받는 스테이션 근처에서만 성립하는 것이고, 동네가 큰 경우에는 내가 있는 곳 주변의 기상정보와 기상청에서 제공하는 정보가 확연히 다르다는 생각이 들 때가 많았다. 이번에 빅데이터 기술의 기반이 되는 표본 추출 및 모집단의 추정에 대해서 학습하고 공부하면서 표준정규분포표를 기반으로 신뢰도와 신뢰구간을 계산하는 방법을 익힐 수 있어서 좋았고, 평소에 궁금했던 표본 추출 방법에 대해서도 재미있게 조사할 수 있었다. 앞으로 통계적인 조사를 하거나 빅데이터 연구를 할 때 이런 기초적인 지식들이 밑바탕이 되어 좋은 연구결과를 이끌어낼 수 있도록 하는 데에 쓰고 싶다.
'포트폴리오' 카테고리의 다른 글
미세먼지 측정기 제작기 (아두이노) (0) | 2019.07.29 |
---|---|
인공지능을 위한 수학을 읽고 (독후감) (3) | 2019.07.14 |
아두이노로 쉽게 만드는 노트북 시건장치 (0) | 2019.06.12 |
랜섬웨어의 제반 문제와 해결방안에 대한 소고 (0) | 2019.06.09 |
HTTPS차단 관련 제반 문제 (0) | 2019.06.09 |