이변량 정규분포의 산점도와 상관계수
이 전자교재는 산점도와 표본상관계수의 대응관계를 동적 화면에서 비교하는 것으로, 주어진 상관계수에 대하여
산점도의 분포가 어떻게 되는지 알 수 있다.
표본상관계수는
- 두 변수에 대한 선형성의 척도로 -1 ~ 1 사이의 값으로 표현되며
- 양수는 양의 상관관계, 음수는 음의 상관관계를 의미하고
- 0은 두 변수간 선형성이 없음을 의미한다. 즉 두 변수는 비 선형성 관계가 있을 수도 있다.
표본상관계수를 입력하여 산점도 제작에 사용한 자료는 이변량 정규분포(Bivariate Normal Distribution)에서
난수(Random Number)를 추출하였다.
이변량 정규분포에서 난수를 생성하는 과정은 다음과 같다
- Box-Muller 변환으로 서로 독립인 표준정규분포 ${\bf Z}= (Z_1, Z_2)^T$를 만든다.
$$
\begin{eqnarray}
Z_1 & = & \sqrt{-2\log U_1}\cos(2\pi U_2) \\
Z_2 & = & \sqrt{-2\log U_1}\sin(2\pi U_2)
\end{eqnarray}
$$
- 분산-공분산 행렬 ${\bf \Sigma}$은 양정치 행렬이고 대칭 행렬이므로 Cholesky 분해가 가능하다.
$$
\begin{eqnarray}
{\bf \Sigma} &=&
\left [ \begin{array}{cc} 1 & \rho \\
\rho & 1
\end{array}
\right ] \nonumber \\
&=&
\left [ \begin{array}{cc} 1 & 0 \\
\rho & \sqrt{1-\rho^2}
\end{array}
\right ]\cdot
\left [ \begin{array}{cc} 1 & \rho \\
0 & \sqrt{1-\rho^2}
\end{array}
\right ] \nonumber \\
&=& {\bf CC}^T \nonumber
\end{eqnarray}
$$
- 이변량 정규분포의 확률벡터 ${\bf X}$는 다음과 같이 나타내며
$$
\begin{eqnarray}
{\bf X}&=&{\bf CZ} \\
\left [ \begin{array}{c}
X_1 \\
X_2
\end{array}
\right ] \nonumber
&=&
\left [ \begin{array}{c}
Z_1 \\
\rho Z_1 + \sqrt{1-\rho^2}Z_2
\end{array}
\right ] \nonumber
\end{eqnarray}
$$
- 확률벡터 ${\bf X}$의 분산-공분산 행렬 ${\bf \Sigma}$은 다음과 같다.
$$Var({\bf X}) = {\bf CIC}^T = {\bf CC}^T = {\bf\Sigma} $$
Implementation of scatter plot and correlation coefficient for bivariate standard normal distribution
전자교재 사용방법
- Input
- Plot Correlation Coefficient : 이 메뉴를 선택하면
- 선점도 작성에 필요한 자료의 개수를 입력하는 팝업창에 자료의 개수를 입력하고
"확인" 버튼을 누르면
- 상관계수를 입력하는 팝업창이 나타나고, 여기에 상관계수의 범위에 해당되는 -1에서 1 사이의
실수를 입력하면
- 입력한 자료의 수와 상관계수에 대한 이변량 정규분포의 난수를 발생하여 그 자료로 산점도와 단순회귀직선을 그려준다.
hmkang98@naver.com