02. 데이터 분석을 위해 필수로 알아야 할 통계 및 데이터 개념 _ 데이터, 모집단, 모수, 통계량, 표본, 사분위수, 중앙값
본문 바로가기
IT/데이터

02. 데이터 분석을 위해 필수로 알아야 할 통계 및 데이터 개념 _ 데이터, 모집단, 모수, 통계량, 표본, 사분위수, 중앙값

by 삼봉님 2025. 6. 24.
반응형

데이터 분석

통계학의 정의

통계학의 정의와 역할을 설명할 수 있다.

      • 불확실한 현상을 이해하기 위해 데이터를 수집하고 데이터 패턴을 요약·분석하여 불확실한 현상에 대한 결론을 찾는 학문
      • 데이터 수집, 요약, 현상에 대한 결론 도출

 

데이터에서 변수와 단위를 찾아낼 수 있다.

      • 단위 : 대상, 유닛  ex) 홍길동, 김만수, 조필혁
      • 변수 : 특성, 필드, variable  ex) 성별, 나이, 혈액형
      • 관찰값 : 특성의 값  ex) 남자, 여자, 30세, 40세, A형, B형
      • 데이터(data) → 정보(information) → 지식(knowledge) → 지혜(wisdom)

 

모집단, 표본, 모수, 통계량의 개념을 설명할 수 있다.

    • 모집단(Population) : 관심 대상이 되는 모든 개체의 모임
      • 예) 인구주택총조사에서 국민 전체, 대선에서의 투표한 주권자 전체
      • 실질적 조사에 한계가 있어 통계학적 관점에서 모집단을 직접 관찰하는 경우는 드뭄
    • 표본(Sampling) : 모집단을 알기 위해 실제로 관측한 모집단의 일부
      • 표본오차(Sampling error), 표본이 모집단을 완벽히 대체할 수 없어 발생되는 모수와 통계량의 차이
      • 표본 추출, 독립성과 불편성을 충족하는 추출 필요
        • 확률 표본추출법, 구성단위의 추출확률이 계산 가능 ex) 행운권 추첨, n/N
        • 비확률 표본추출법, 구성단위의 추출확률 계산 불가, 편향 가능성 있음
    • 모수(parameter) : 모집단의 특성을 나타내는 대푯값
    • 통계량(statistic) : 표본의 특성을 나타내는 대푯값
    • 분포 : 변수의 범위와 그 빈도를 나타낸 것
      • 도수분포표, 히스토그램 등 그림으로 범위에 대응되는 빈도를 표현할 수 있음

 

 

데이터의 요약

변수의 종류를 구분할 수 있다.

      • 질적(범주형) 변수 : 명목형 ex)성별(성별에는 순서가 없음), 순서형 ex)학벌(학벌에는 순위를 나열할 수 있음)
      • 양적변수 : 연속형 ex)몸무게(xx.xx로 딱 떨어지지 않음), 이산형 ex)나이(29세, 30세 등 이렇게 딱딱 구분됨)

 

막대그래프, 히스토그램, 점도표가 무엇인지 설명할 수 있다.

      • 질적변수 사용 → 막대그래프, 원그래프
      • 양적변수 사용 → 히스토그램
      • 분포, 변수가 취할 수 있는 모든 값에 대해 각 값이 발생하는 빈도의 나열

 

평균, 분산, 표준편차를 계산할 수 있다.

      • 평균
      • 분산 : 편차 제곱의 평균 (표본분산의 경우, 나누는 수를 n-1 ∵자유도)
      • 표준편차 : 분산의 제곱근

2022.08.18 - [IT/데이터] - [통계의 이해]01.기초통계량_평균, 분산, 표준편차, 표준화, 공분산, 상관계수

 

[통계의 이해]01.기초통계량_평균, 분산, 표준편차, 표준화, 공분산, 상관계수

평균 ★★★★★ □ 정의 여러 수나 같은 종류의 양의 중간값을 갖는 수. 어떤 값들의 집합에서 특징을 나타내거나 요약하는 대표값으로 유의미한 결과를 표시하는 역할을 한다. □ 종류 - 산술

senstintell.tistory.com

 

 

평균, 분산, 표준편차, 최빈값, 변이계수의 특징을 설명할 수 있다.

      • 변이계수 : 표준편차를 평균으로 나누 값, 서로 다른 단위의 집합을 비교할 때 사용 ex) 초등학생과 성인의 키 분포를 그룹별로 비교할 때

 

중앙값, 사분위수, 사분위수 범위, 백분위수, 범위, 다섯 수치요약이 무엇인지 설명할 수 있다.

      • 중앙값 : 데이터 중앙에 위치하는 값, 특이점 데이터 요약시 사용, 특이점 대응에 용이
      • 사분위수 : 전체 데이터 중 값이 낮은 n/4와 나머지를 가르는 값, 사분위수범위는 Q3 - Q1
      • p백분위수 : 전체 데이터의 p%가 이 값보다 작거나 같은 값
      • 범위 : 관찰값의 최댓값과 최솟값의 차이, 산포를 나타내는 간단한 통계량
      • 다섯 수치요약과 상자그림 : 최솟값, 1사분위수, 중앙값, 3사분위수, 최댓값을 그래프로 표현

 

상자그림이 무엇인지 설명할 수 있다.

    • 다섯 수치요약(최소값, Q1, 중앙값, Q3,최댓값)을 그림으로 표현한 그래프
반응형

댓글


TOP

TEL. 02.1234.5678 / 경기 성남시 분당구 판교역로