해당 글은 유데미에서 공부 내용을 토대로 정리한 글입니다 :)
Sample or population data
모수와 표본
모수: 관심의 대상이 되는 모집단의 대표값
표본: 모집단의 부분집합. 임의적이면서 대표적어야 함.(무작위성과 상징성)
The fundamentals of descriptive statistics
데이터 유형
Categorical | Numerical | |
Discrete | Continuous |
데이터 유형은 Categorical과 Numerical로 나눌 수 있습니다. 그중 Numerical은 Discrete와 Continuous로 나뉩니다.
Categorical(범주형)
: 범주형 데이터는 성별, 자동차 종처럼 그룹 또는 범주를 나타냅니다.
Numerical(수치형)
: 수치형 데이터는 숫자를 나타냅니다. 이산형과 연속형으로 나누는데 이산형은 0,1,2, 수능 점수처럼 셀 수 있는 반면에, 연속형은 몸무게, 길이처럼 연속성을 지닙니다.
Levels of measurement
Qualitative | Quantitative | ||
Nominal | Ordinal | Interval | Ratio |
변수는 Qualitative와 Quantitative로 나뉩니다. Qualitative는 Nominal와 Ordinal로 나누고, Quantitative 는 Interval와 Ratio로 나뉩니다.
Qualitative(질적)
: 질적 변수는 남=1, 여=2처럼 성별에 수치를 부여하여 통계적으로 처리하는 Nominal(명목척도)와 아주좋음(3), 보통(2), 아주 싫음(1)처럼 크고 작음의 순서를 알 수 있는 Oridinal(서열척도)로 나눕니다.
Quantitative(양적)
: 양적 변수는 체온, 온도처럼 눈금 간격이 같은 Interval(등간척도)와 키, 몸무게와 같이 0에 의미가 있는 Ratio(비율척도)로 나눕니다.
데이터 시각화 방법
Categorical variables
Frequency Distribution Table | Bar Chart | Pie Chart | Pareto Diagram |
Numerical variables
Frequency Distribution Table | Histogram Chart | Cross Table | Scatter Plot |
Frequency Distribution Table(도수분포표)
: 수치형 데이터의 도수분포표는 동일한 간격으로 구간을 나타내며, 누적 빈도수도 같이 나타내는 것이 유용합니다.
구간을 계산하는 공식은 다음과 같습니다.
Histogram Chart(히스토그램)
: 수치형 데이터를 나타내는 가장 일반적인 방법으로 막대가 맞닿아 있는 이유는 연속성을 나타내기 때문입니다.
Cross Table(피벗 테이블 또는 다차원 테이블)
: 범주형 데이터를 나타내는 데 사용되며, 한 범주를 행 레이블에 지정하고 다른 범주를 열 레이블에 지정해 표로 채웁니다.
Scatter Plot(산점도)
: 동일한 그래프에 두 개의 수치형 데이터를 표현할 경우 사용하며, 데이터의 패턴을 탐지하는 도움이 됩니다.
'스터디 정리' 카테고리의 다른 글
Statistics for Data Science and Business Analysis 3주차 (0) | 2023.10.24 |
---|---|
Statistics for Data Science and Business Analysis 2주차 (1) | 2023.10.16 |
혼자 공부하는 머신러닝+딥러닝 6주차 (0) | 2023.02.15 |
주성분 분석(PCA) (0) | 2023.02.14 |
혼자 공부하는 머신러닝+딥러닝 5주차 (0) | 2023.02.10 |
댓글