이변량 정규분포의 산점도와 상관계수
이 전자교재는 산점도와 표본상관계수의 대응관계를 동적 화면에서 비교하는 것으로, 주어진 상관계수에 대하여 산점도의 분포가 어떻게 되는지 알 수 있다.
표본상관계수는:
- 두 변수에 대한 선형성의 척도로 -1 ~ 1 사이의 값으로 표현되며,
- 양수는 양의 상관관계, 음수는 음의 상관관계를 의미하고,
- 0은 두 변수간 선형성이 없음을 의미한다. 즉 두 변수는 비 선형성 관계가 있을 수도 있다.
표본상관계수를 입력하여 산점도 제작에 사용한 자료는 이변량 정규분포(Bivariate Normal Distribution)에서 난수(Random Number)를 추출하였다. 이변량 정규분포에서 난수를 생성하는 과정은 다음과 같다:
- Box-Muller 변환으로 서로 독립인 표준정규분포 $ {\bf Z}= (Z_1, Z_2)^T $를 만든다.
\[\begin{eqnarray}
Z_1 & = & \sqrt{-2\log U_1}\cos(2\pi U_2) \\
Z_2 & = & \sqrt{-2\log U_1}\sin(2\pi U_2)
\end{eqnarray}\]
- 분산-공분산 행렬 $ {\bf \Sigma} $은 양정치 행렬이고 대칭 행렬이므로 Cholesky 분해가 가능하다.
\[\begin{eqnarray}
{\bf \Sigma} &=& \left [ \begin{array}{cc} 1 & \rho \\
\rho & 1
\end{array}
\right ] \nonumber \\
&=& \left [ \begin{array}{cc} 1 & 0 \\
\rho & \sqrt{1-\rho^2}
\end{array}
\right ]\cdot
\left [ \begin{array}{cc} 1 & \rho \\
0 & \sqrt{1-\rho^2}
\end{array}
\right ] \nonumber \\
&=& {\bf CC}^T \nonumber
\end{eqnarray}\]
- 이변량 정규분포의 확률벡터 $ {\bf X} $는 다음과 같이 나타내며:
\[\begin{eqnarray}
{\bf X}&=&{\bf CZ} \\
\left [ \begin{array}{c}
X_1 \\
X_2
\end{array}
\right ] \nonumber
&=&
\left [ \begin{array}{c}
Z_1 \\
\rho Z_1 + \sqrt{1-\rho^2}Z_2
\end{array}
\right ] \nonumber
\end{eqnarray}\]
- 확률벡터 $ {\bf X} $의 분산-공분산 행렬 $ {\bf \Sigma} $은 다음과 같다.
\[Var({\bf X}) = {\bf CIC}^T = {\bf CC}^T = {\bf\Sigma}\]
Implementation of scatter plot and correlation coefficient for bivariate standard normal distribution;
전자교재 사용방법
- Input
- Plot Correlation Coefficient : 이 메뉴를 선택하면
- 선점도 작성에 필요한 자료의 개수를 입력하는 팝업창에 자료의 개수를 입력하고 “확인” 버튼을 누르면
- 상관계수를 입력하는 팝업창이 나타나고, 여기에 상관계수의 범위에 해당되는 -1에서 1 사이의 실수를 입력하면
- 입력한 자료의 수와 상관계수에 대한 이변량 정규분포의 난수를 발생하여 그 자료로 산점도와 단순회귀직선을 그려준다.
hmkang98@naver.com