2020. 8. 17. 21:00ㆍ확률 통계(Probability and Statistics)
공분산 Cov[X, Y]는 확률 변수 X, Y 사이의 경향성을 나타낸다.
Cov[X, Y] > 0 : X가 클 때, Y도 큰 경향
Cov[X, Y] < 0 : X가 클 때, Y는 작은 경향
Cov[X, Y] = 0 : 아무 경향이 없음
위의 설명처럼 부호는 경향성을 나타낸다. 그렇다면 값의 의미는?
값이 클수록 더 경향성이 뚜렷하다는 것일까?
정답은 그렇지 않다.
Cov[X, Y] = 3.7 일 때, X, Y를 100배 해서 Z = 100X, W = 100Y로 만든다고 하면
Cov[Z, W] = 37000이다.
그래프에서 확인하면 눈금이 더 커졌을뿐이지 경향성은 그대로이다.
따라서 공분산을 보아서는 경향성의 뚜렷함을 알 수가 없다.
결국 두 분포의 축척을 바꾸는 것으로는 양자의 관계가 본질적으로 바뀌지 않으므로
축척을 항상 일정하게 갖추고 나서 비교를 해야한다.
이렇게 비교한 것을 우리는 Correlation Coefficient(상관 계수)라고 한다.
X, Y를 각각의 표준편차로 나누면 둘의 분산은 1이 되고 이 상태에서 공분산을 구하면
Cov[X / σx, Y / σy] = Cov[X, Y] / σxσy = ρxy
가 된다.
상관계수는 다음과 같은 성질을 갖는다.
1. 상관계수는 -1 ~ 1의 값을 갖는다.
2. 상관계수가 +1에 가까울수록 (X, Y)는 오른쪽으로 올라가는 직선에 가깝게 위치한다.
3. 상관계수가 -1에 가까울수록 (X, Y)는 오른쪽으로 내려가는 직선에 가깝게 위치한다.
4. X, Y가 서로 독립이면 상관계수는 0이다.
※ 2번에서 '+1에 가까울수록 오른쪽으로 올라가는 것'이 아니라 '+1에 가까울수록 직선에 가까워지는 것'
주의할 점은 상관계수를 맹신해서는 안된다는 것이다.
상관계수가 0이라고 해서 무조건 X, Y가 상관이 없다는 것은 아니다.
따라서 상관계수만 가지고 두 분포의 상관관계를 판단해서는 안된다.
또한, 상관계수가 +1이나 -1에 가까웠다고 해서 두 분포가 직접적인 관계가 꼭 있다는 것은 아니다.
예를 들면, 대학교 식당의 매출과 사무실의 온 분실물의 건수가 양의 상관관계를 보인다고해서
두 분포가 직접적인 관계가 있는 것은 아니다.
그저 등교 인원이 증가하면 매출과 분실물 수가 증가하고
인원이 감소하면 매출과 분실물 수가 감소하는 것이다.
'확률 통계(Probability and Statistics)' 카테고리의 다른 글
[확통] 정규 분포(Gaussian distribution) (0) | 2020.08.07 |
---|