해당 글은 유데미에서 공부 내용을 토대로 정리한 글입니다 :)
Skewness(왜도)
Mean > Median > Mode | Mean = Median = Mode | Mean < Median < Mode |
- 데이터의 좌우 비대칭을 표현하는 척도로, 데이터가 어디에 위치해 있는지 알 수 있습니다.
- 정규분포처럼 좌우대칭을 이룰수록 왜도 값이 작아지고 한 쪽으로 심하게 몰릴 수록 왜도값이 증가합니다.
Variance와 Standard deviation
Population Variance(모분산) | Sample Variance(표본분산) |
Population standard deviation (모집단 표준편차) |
Sample standard deviation (표본 표준편차) |
|
표본분산은 n-1로 나누는이유(👈자세한 설명을 원한다면?)
- 표본 분산을 n으로 나눈는 것이 분산의 정의에 부합하지만, 모집단의 분산을 추정하는 데 의미가 없으므로 모분산의 불편 추정량으로 계산하는 것입니다. 즉, 표본분산 정의는 모분산의 불편 추정량으로 정의했기 때문입니다.
- 표본분산의 기댓값을 모분산과 일치시키기 위해서라고도 표현합니다.
Coefficient of variation(CV)
: 상대표준편차(relative standard deviaton, RSD)라고도 하며 표준편차를 비교할 때 사용됩니다. 변동계수는 표준편차를 평균으로 나누어 표준화하므로 단위가 다른 속성을 비교할 수 있을 때 사용합니다.
모집단의 변동계수 | 표본의 변동계수 |
|
Covariance(공분산)
Cov(x,y) > 0 | Cov(x,y) = 0 | Cov(x,y) < 0 |
x가 증가할 때 y도 증가하는 경향 | 두 변수는 상관이 없다** | x가 증할 때 y는 감소하는 경향 |
** x,y가 독립이면 Cov(x,y)=0이고, 그 역은 반드시 성립하지 않는다.
Correlation coefficient(상관계수)
- r은 항상 -1과 1 사이에 있습니다.
- r의 절대값 크기는 직선에 가까운 정도를 나타내고, 부호는 직선의 방향을 나타냅니다.
r = 1 | r = -1 | r > 0 | r < 0 |
모든 점이 기울기가 양수인 직선 위에 위치한다. | 모든 점이 기울기가 음수인 직선 위에 위치한다. | 양의 상관관계 | 음의 상관관계 |
👇 공분산과 상관계수에 대해 더 알고싶다면?
'스터디 정리' 카테고리의 다른 글
Statistics for Data Science and Business Analysis 4주차 (0) | 2023.11.07 |
---|---|
Statistics for Data Science and Business Analysis 3주차 (0) | 2023.10.24 |
Statistics for Data Science and Business Analysis 1주차 (0) | 2023.10.14 |
혼자 공부하는 머신러닝+딥러닝 6주차 (0) | 2023.02.15 |
주성분 분석(PCA) (0) | 2023.02.14 |
댓글