본문 바로가기
스터디 정리

Statistics for Data Science and Business Analysis 1주차

by 고공이 2023. 10. 14.

해당 글은 유데미에서 공부 내용을 토대로 정리한 글입니다 :)

 

Sample or population data

모수와 표본

모수: 관심의 대상이 되는 모집단의 대표값

표본: 모집단의 부분집합. 임의적이면서 대표적어야 함.(무작위성과 상징성)

 

 

The fundamentals of descriptive statistics

데이터 유형

Categorical Numerical
  Discrete Continuous

데이터 유형은 Categorical과 Numerical로 나눌 수 있습니다. 그중 Numerical은 DiscreteContinuous로 나뉩니다.

 

Categorical(범주형)

: 범주형 데이터는 성별, 자동차 종처럼 그룹 또는 범주를 나타냅니다.

 

Numerical(수치형)

: 수치형 데이터는 숫자를 나타냅니다. 이산형과 연속형으로 나누는데 이산형은 0,1,2, 수능 점수처럼 셀 수 있는 반면에, 연속형은 몸무게, 길이처럼 연속성을 지닙니다.

 

 

Levels of measurement

Qualitative Quantitative
Nominal Ordinal Interval Ratio

변수는 Qualitative와 Quantitative로 나뉩니다. Qualitative는 NominalOrdinal로 나누고, Quantitative 는 IntervalRatio로 나뉩니다.

 

Qualitative(질적)

: 질적 변수는 남=1, 여=2처럼 성별에 수치를 부여하여 통계적으로 처리하는 Nominal(명목척도)와 아주좋음(3), 보통(2), 아주 싫음(1)처럼 크고 작음의 순서를 알 수 있는 Oridinal(서열척도)로 나눕니다.

 

Quantitative(양적)

: 양적 변수는 체온, 온도처럼 눈금 간격이 같은 Interval(등간척도)와 키, 몸무게와 같이 0에 의미가 있는 Ratio(비율척도)로 나눕니다.

 

 

데이터 시각화 방법

Categorical variables

Frequency Distribution Table Bar Chart Pie Chart Pareto Diagram

 

Numerical variables

Frequency Distribution Table Histogram Chart Cross Table Scatter Plot

Frequency Distribution Table(도수분포표)

: 수치형 데이터의 도수분포표는 동일한 간격으로 구간을 나타내며, 누적 빈도수도 같이 나타내는 것이 유용합니다.

구간을 계산하는 공식은 다음과 같습니다.

Histogram Chart(히스토그램)

: 수치형 데이터를 나타내는 가장 일반적인 방법으로 막대가 맞닿아 있는 이유는 연속성을 나타내기 때문입니다.

 

Cross Table(피벗 테이블 또는 다차원 테이블)

: 범주형 데이터를 나타내는 데 사용되며, 한 범주를 행 레이블에 지정하고 다른 범주를 열 레이블에 지정해 표로 채웁니다.

 

Scatter Plot(산점도)

: 동일한 그래프에 두 개의 수치형 데이터를 표현할 경우 사용하며, 데이터의 패턴을 탐지하는 도움이 됩니다.

댓글