Share to: share facebook share twitter share wa share telegram print page

모란지수

흰색과 검은색 사각형들이 완벽하게 분산되어 있다면, 공간 인접성에 기반한 (Rook) 이웃 정의를 사용할 때 모란지수는 − 1이 될 것이다. 만약 흰색 사각형들이 보드의 한쪽 절반에, 검은색 사각형들이 다른 쪽 절반에 모여 있다면, N이 증가함에 따라 모란지수는 +1에 가까워질 것이다. 사각형 색상이 무작위적으로 배열된 경우 모란지수는 0에 가까워진다.

통계학에서, 모란지수(영어: Moran's I)는 패트릭 알프레드 피어스 모란이 개발한 공간적 자기상관의 측정 지표이다.[1][2] 공간적 자기상관은 공간적으로 인접한 위치들 간 신호의 상관관계가 나타나는 특징을 보인다. 공간적 자기상관은 공간 상관관계가 다차원적(2차원 또는 3차원 공간)이고 다방향적이므로 1차원적 자기상관보다 더 복잡하다.

전역적 모란지수

전역적 모란지수(영어: Global Moran's I)는 공간 데이터의 전반적인 군집(clustering) 정도를 측정하는 지표이며, 정의는 다음과 같다.

여기서,

  • 로 색인되는 공간 단위의 개수,
  • 는 관심 변수,
  • 의 평균,
  • 는 대각선이 0인 공간 가중치 행렬의 요소(즉, ),
  • 는 모든 의 합(즉, )이다.
다음은 다양한 공간 패턴에 대해 계산된 모란지수 통계량이다. 각 격자 셀에 대해 이웃을 사용하여 의 이웃 에 대해 로 설정한 다음, 가중치 행렬을 행 정규화한다. 왼쪽 상단은 반상관 관계를 보여주며 음의 I 값을 나타내고, 오른쪽 상단은 공간 기울기를 보여주며 큰 양의 I 값을 나타낸다. 왼쪽 하단은 무작위 데이터를 보여주며 I 값이 0에 가깝게 나오며(또는 ), 오른쪽 하단은 '잉크 얼룩' 또는 확산 패턴을 보여주며 양의 자기상관을 나타낸다.

공간 가중치 행렬 정의

모란지수() 값은 공간 가중치 행렬 에 내재된 가정에 따라 크게 달라질 수 있다. 공간적 자기상관을 다루고 공간적 상호작용을 모델링하려면 이 행렬을 통해 고려할 이웃의 수를 제한하는 구조를 부여하여야 한다. 이는 "모든 것은 다른 것과 연관되어 있지만 가까이 있는 것은 멀리 있는 것보다 더 연관되어 있다"는 토블러의 지리학 제1법칙과 관련된다. 즉, 이 법칙은 공간 거리 감쇠 함수를 내포하며, 모든 관측치가 다른 모든 관측치에 영향을 미치더라도 특정 거리 임계값을 넘어서면 그 영향은 무시할 수 있음을 의미한다.

이러한 접근 방식은 다루고자 하는 특정 공간 현상에 대한 가정을 정확히 반영하는 행렬을 구성하는 것이다. 이때 '이웃'의 정의는 다양할 수 있으며, 이에 따라 행렬 구성 방법도 달라진다. 일반적인 방법으로는 두 구역이 이웃하는 경우 가중치 1을 부여하고 그렇지 않으면 0을 부여한다. 다른 흔한 방법으로는 개의 최근접 이웃에 가중치 1을 부여하고, 그 외에는 0을 부여하는 것이다. 이외에도 거리에 따른 감쇠 함수를 사용하여 가중치를 할당하는 방법, 공유된 경계의 길이를 이용하여 이웃에 다른 가중치를 할당하는 방법이 존재한다. 값은 가중치에 상당히 민감하므로 공간 가중치 행렬의 선택은 해당 현상에 대한 이론에 따라 이루어져야 하며, 특히 거리에 기반한 가중치를 사용할 경우 현상에 대한 결론에 영향을 미칠 수 있다.

기댓값

공간적 자기상관이 없다는 귀무가설() 하에서 모란지수의 기댓값은 다음과 같다.

이 기댓값에 사용되는 귀무 분포(null distribution)는 입력 변수 가 무작위로 균일하게 선택된 순열()에 의해 순열 재배치된다는 가정에 기반한다(여기서 기댓값은 순열 선택에 대한 것이다).

표본 크기가 클수록(즉, 이 무한대에 가까워질수록) 기댓값은 0에 가까워진다.

모란지수의 분산은 다음과 같다.

여기서,

-1/(N-1)보다 현저히 낮은 값은 음의 공간적 자기상관을 나타내고, -1/(N-1)보다 현저히 높은 값은 양의 공간적 자기상관을 나타낸다. 통계적 가설 검정을 위해 모란지수 값을 표준 점수로 변환할 수 있다.

I 값의 범위는 부터 까지이다. 여기서 는 가중치 행렬의 해당 최소 및 최대 고유값(eigenvalues)이다. 행 정규화된 행렬의 경우 이다.

모란지수는 기어리 통계량(Geary's C)과 반비례 관계를 갖지만, 완전히 동일하지는 않다. 모란지수는 전역적 공간적 자기상관을 측정하는 반면, 기어리 통계량은 국지적 공간적 자기상관에 더 민감하다.

국지적 모란지수

다음은 2020년 미국 본토 카운티별 추정 빈곤층 비율의 군집을 나타낸 것이며, 안셀린 국지적 모란지수(Anselin Local Moran's I)를 사용하여 계산하였다.

전역적 공간적 자기상관 분석은 전체 연구 영역을 요약하는 단 하나의 통계량만을 산출한다. 즉, 전역적 분석은 동질성(homogeneity)을 가정한다. 이러한 가정이 충족되지 않으면, 통계량이 공간에 따라 달라져야 하므로 단 하나의 통계량을 갖는 것은 의미가 없다.

더욱이, 전역적 자기상관이나 군집성이 없더라도 국지적 공간적 자기상관 분석을 이용하여 국지적 수준에서 군집을 발견할 수 있다. 모란지수가 개별 교차곱의 합이라는 사실은 "공간 연관성 국지 지표"(LISA, Local Indicators of Spatial Association)에 의해 활용되어, 각 공간 단위에 대한 국지적 모란지수(Ii)를 계산하고 각 Ii의 통계적 유의성을 평가함으로써 개별 단위의 군집성을 평가한다. 전역적 모란지수 공식으로부터 다음을 얻을 수 있다.

여기서,

따라서,

I는 전역적 자기상관을 측정하는 전역적 모란지수이며, Ii는 국지적 모란지수, N은 공간상 분석 단위의 개수이다.

LISA는 룩 안셀린(Luc Anselin)이 1995년에 제안한 국지적 모란지수[3][4]를 사용하는 GeoDaArcGIS Pro에서 계산할 수 있다.[5]

사용례

모란지수는 지리학지리정보과학 분야에서 널리 사용되며, 다음과 같은 몇 가지 예시가 존재한다.

  • 건강 변수의 지리적 차이 분석[6]
  • 공공 수돗물 내 리튬 농도가 정신 건강에 미치는 영향 규명[7]
  • 방언학에서 지역별 언어 변이의 유의성 측정[8]
  • 지형학 연구를 위한 의미 있는 지형 분할의 목적 함수 정의[9]

같이 보기

참고 문헌

  1. Moran, P. A. P. (1950). “Notes on Continuous Stochastic Phenomena”. 《Biometrika》 37 (1): 17–23. doi:10.2307/2332142. JSTOR 2332142. PMID 15420245. 
  2. Li, Hongfei; Calder, Catherine A.; Cressie, Noel (2007). “Beyond Moran's I: Testing for Spatial Dependence Based on the Spatial Autoregressive Model”. 《Geographical Analysis》 39 (4): 357–375. doi:10.1111/j.1538-4632.2007.00708.x. 
  3. Anselin, Luc (2005). “Exploring Spatial Data with GeoDa: A Workbook” (PDF). Spatial Analysis Laboratory. 138쪽. 
  4. “Cluster and Outlier Analysis (Anselin Local Moran's I) (Spatial Statistics)”. ESRI. 2024년 5월 28일에 확인함. 
  5. Anselin, Luc (1995). “Local Indicators of Spatial Association—LISA”. 《Geographical Analysis》 27 (2): 93–115. doi:10.1111/j.1538-4632.1995.tb00338.x. 
  6. Getis, Arthur (2010년 9월 3일). “The Analysis of Spatial Association by Use of Distance Statistics”. 《Geographical Analysis》 24 (3): 189–206. doi:10.1111/j.1538-4632.1992.tb00261.x. 
  7. Helbich, M; Leitner, M; Kapusta, ND (2012). “Geospatial examination of lithium in drinking water and suicide mortality”. 《Int J Health Geogr》 11 (1): 19. doi:10.1186/1476-072X-11-19. PMC 3441892. PMID 22695110. 
  8. Grieve, Jack (2011). “A regional analysis of contraction rate in written Standard American English”. 《International Journal of Corpus Linguistics》 16 (4): 514–546. doi:10.1075/ijcl.16.4.04gri. 
  9. Alvioli, M.; Marchesini, I.; Reichenbach, P.; Rossi, M.; Ardizzone, F.; Fiorucci, F.; Guzzetti, F. (2016). “Automatic delineation of geomorphological slope units with r.slopeunits v1.0 and their optimization for landslide susceptibility modeling”. 《Geoscientific Model Development》 9: 3975–3991. doi:10.5194/gmd-9-3975-2016. 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya