이변량 정규분포의 산점도와 상관계수

이 전자교재는 산점도표본상관계수의 대응관계를 동적 화면에서 비교하는 것으로, 주어진 상관계수에 대하여 산점도의 분포가 어떻게 되는지 알 수 있다.

표본상관계수는:

  1. 두 변수에 대한 선형성의 척도로 -1 ~ 1 사이의 값으로 표현되며,
  2. 양수는 양의 상관관계, 음수는 음의 상관관계를 의미하고,
  3. 0은 두 변수간 선형성이 없음을 의미한다. 즉 두 변수는 비 선형성 관계가 있을 수도 있다.

표본상관계수를 입력하여 산점도 제작에 사용한 자료는 이변량 정규분포(Bivariate Normal Distribution)에서 난수(Random Number)를 추출하였다. 이변량 정규분포에서 난수를 생성하는 과정은 다음과 같다:

  1. Box-Muller 변환으로 서로 독립인 표준정규분포 $ {\bf Z}= (Z_1, Z_2)^T $를 만든다.
\[\begin{eqnarray} Z_1 & = & \sqrt{-2\log U_1}\cos(2\pi U_2) \\ Z_2 & = & \sqrt{-2\log U_1}\sin(2\pi U_2) \end{eqnarray}\]
  1. 분산-공분산 행렬 $ {\bf \Sigma} $은 양정치 행렬이고 대칭 행렬이므로 Cholesky 분해가 가능하다.
\[\begin{eqnarray} {\bf \Sigma} &=& \left [ \begin{array}{cc} 1 & \rho \\ \rho & 1 \end{array} \right ] \nonumber \\ &=& \left [ \begin{array}{cc} 1 & 0 \\ \rho & \sqrt{1-\rho^2} \end{array} \right ]\cdot \left [ \begin{array}{cc} 1 & \rho \\ 0 & \sqrt{1-\rho^2} \end{array} \right ] \nonumber \\ &=& {\bf CC}^T \nonumber \end{eqnarray}\]
  1. 이변량 정규분포의 확률벡터 $ {\bf X} $는 다음과 같이 나타내며:
\[\begin{eqnarray} {\bf X}&=&{\bf CZ} \\ \left [ \begin{array}{c} X_1 \\ X_2 \end{array} \right ] \nonumber &=& \left [ \begin{array}{c} Z_1 \\ \rho Z_1 + \sqrt{1-\rho^2}Z_2 \end{array} \right ] \nonumber \end{eqnarray}\]
  1. 확률벡터 $ {\bf X} $의 분산-공분산 행렬 $ {\bf \Sigma} $은 다음과 같다.
\[Var({\bf X}) = {\bf CIC}^T = {\bf CC}^T = {\bf\Sigma}\]

Implementation of scatter plot and correlation coefficient for bivariate standard normal distribution;


전자교재 사용방법

  1. Input
    • Plot Correlation Coefficient : 이 메뉴를 선택하면
      1. 선점도 작성에 필요한 자료의 개수를 입력하는 팝업창에 자료의 개수를 입력하고 “확인” 버튼을 누르면
      2. 상관계수를 입력하는 팝업창이 나타나고, 여기에 상관계수의 범위에 해당되는 -1에서 1 사이의 실수를 입력하면
      3. 입력한 자료의 수와 상관계수에 대한 이변량 정규분포의 난수를 발생하여 그 자료로 산점도와 단순회귀직선을 그려준다.

hmkang98@naver.com