본문 바로가기
스터디 정리

Statistics for Data Science and Business Analysis 2주차

by 고공이 2023. 10. 16.

해당 글은 유데미에서 공부 내용을 토대로 정리한 글입니다 :)

 

 

Skewness(왜도)

Mean > Median > Mode Mean = Median = Mode Mean < Median < Mode
  • 데이터의 좌우 비대칭을 표현하는 척도로, 데이터가 어디에 위치해 있는지 알 수 있습니다.
  • 정규분포처럼 좌우대칭을 이룰수록 왜도 값이 작아지고 한 쪽으로 심하게 몰릴 수록 왜도값이 증가합니다.

 

Variance와 Standard deviation

Population Variance(모분산) Sample Variance(표본분산)
Population standard deviation
(모집단 표준편차)
Sample standard deviation
(표본 표준편차)


표본분산은 n-1로 나누는이유(👈자세한 설명을 원한다면?)

  • 표본 분산을 n으로 나눈는 것이 분산의 정의에 부합하지만, 모집단의 분산을 추정하는 데 의미가 없으므로 모분산의 불편 추정량으로 계산하는 것입니다. 즉, 표본분산 정의는 모분산의 불편 추정량으로 정의했기 때문입니다.
  • 표본분산의 기댓값을 모분산과 일치시키기 위해서라고도 표현합니다.


Coefficient of variation(CV)

: 상대표준편차(relative standard deviaton, RSD)라고도 하며 표준편차를 비교할 때 사용됩니다. 변동계수는 표준편차를 평균으로 나누어 표준화하므로 단위가 다른 속성을 비교할 수 있을 때 사용합니다.

모집단의 변동계수 표본의 변동계수

 

 

Covariance(공분산)

Cov(x,y) > 0 Cov(x,y) = 0 Cov(x,y) < 0
x가 증가할 때 y도 증가하는 경향 두 변수는 상관이 없다** x가 증할 때 y는 감소하는 경향

** x,y가 독립이면 Cov(x,y)=0이고, 그 역은 반드시 성립하지 않는다.

 

 

Correlation coefficient(상관계수)

  • r은 항상 -1과 1 사이에 있습니다.
  • r의 절대값 크기는 직선에 가까운 정도를 나타내고, 부호는 직선의 방향을 나타냅니다.
r = 1 r = -1 r > 0 r < 0
모든 점이 기울기가 양수인 직선 위에 위치한다. 모든 점이 기울기가 음수인 직선 위에 위치한다. 양의 상관관계 음의 상관관계

 

👇 공분산과 상관계수에 대해 더 알고싶다면?

https://elementary-physics.tistory.com/188

댓글