인과 추론

위키백과, 우리 모두의 백과사전.

인과 추론은 더 큰 시스템의 구성 요소인 특정 현상의 독립적이고 실제적인 영향을 결정하는 프로세스이다. 인과 추론과 상관 분석의 주요 차이점은 인과 추론은 결과 변수의 원인이 변경될 때 효과 변수의 응답을 분석한다는 것이다.[1][2] 일이 일어나는 이유에 대한 과학을 원인학이라고 한다. 인과 추론은 인과 추론에 의해 이론화된 인과 관계의 증거를 제공한다고 한다.

인과 추론은 모든 과학에서 광범위하게 연구된다. 인과관계를 결정하기 위해 고안된 방법론의 개발 및 구현에서 몇 가지 혁신이 최근 수십 년 동안 급증했다. 인과 추론은 실험이 어렵거나 불가능한 경우 특히 어렵다. 이는 대부분의 과학에서 일반적이다.

인과 추론에 대한 접근 방식은 모든 유형의 과학 분야에 광범위하게 적용할 수 있으며 특정 분야를 위해 설계된 많은 인과 추론 방법이 다른 분야에서도 사용되었다. 이 기사에서는 인과 추론의 기본 프로세스를 간략하게 설명하고 다양한 분야에서 사용되는 보다 일반적인 테스트에 대해 자세히 설명한다. 그러나 이것은 이러한 방법이 해당 분야에만 적용되고 단지 해당 분야에서 가장 일반적으로 사용된다는 제안으로 오인되어서는 안 된다.

인과관계 추론은 수행하기 어렵고 인과관계를 결정하는 적절한 방법에 대해 과학자들 사이에 상당한 논쟁이 있다. 다른 혁신에도 불구하고 과학자들이 상관적 결과를 인과로 잘못 귀인하고, 과학자들이 부정확한 방법론을 사용하고, 과학자들이 통계적으로 유의미한 추정치를 얻기 위해 분석 결과를 의도적으로 조작하는 것에 대한 우려가 남아 있다. 회귀 모델, 특히 선형 회귀 모델의 사용에서 특히 우려가 제기된다.

방법론[편집]

인과 추론은 한 변수의 측정값이 다른 변수의 측정값에 영향을 미치는 것으로 의심되는 시스템 연구를 통해 수행된다. 인과 추론은 과학적 방법과 관련하여 수행된다. 인과 추론의 첫 번째 단계는 반증 가능한 귀무 가설을 공식화하는 것이며, 이는 이후에 통계적 방법으로 테스트된다. 빈도주의적 통계적 추론은 통계적 방법을 사용하여 데이터가 귀무 가설에서 우연히 발생할 확률을 결정하는 것이다. 베이즈 추론은 독립 변수의 효과를 결정하는 데 사용된다.[3] 일반적으로 통계적 추론은 무작위 변동인 원본 데이터의 변동 또는 잘 지정된 인과 관계 메커니즘의 효과 간의 차이를 결정하는 데 사용된다. 특히 상관관계는 인과관계를 의미하지 않으므로 인과 관계 연구는 데이터 간의 변동과 마찬가지로 잠재적인 인과관계 메커니즘 연구와 관련이 있다. 인과 추론의 자주 찾는 표준은 치료가 무작위로 할당되지만 다른 모든 교란 요인은 일정하게 유지되는 실험이다. 인과 추론에 대한 대부분의 노력은 실험 조건을 복제하려는 시도에 있다.

역학 연구는 위험 요인과 영향에 대한 증거를 수집하고 측정하는 다양한 역학 방법과 둘 사이의 연관성을 측정하는 다양한 방법을 사용한다. 인과 추론 방법에 대한 2020년 검토 결과에 따르면 임상 훈련 프로그램에 기존 문헌을 사용하는 것이 어려울 수 있다. 이는 출판된 기사가 종종 고급 기술 배경을 가정하고 여러 통계, 역학, 컴퓨터 과학 또는 철학적 관점에서 작성될 수 있고 방법론적 접근 방식이 계속 빠르게 확장되고 인과 추론의 많은 측면이 제한된 범위를 받기 때문이다.[4]

역학에서의 접근[편집]

역학은 원인과 결과를 추론하기 위해 정의된 생명체 집단에서 건강과 질병의 패턴을 연구한다. 추정되는 위험 인자에 대한 노출과 질병 사이의 연관성은 암시적일 수 있지만 상관관계가 인과 관계를 암시하지 않기 때문에 인과관계와 동등하지 않다. 역사적으로 코흐의 가설은 미생물이 질병의 원인인지 여부를 결정하기 위해 19세기부터 사용되었다. 20세기에 1965년에 기술된 Bradford Hill 기준[5] 은 미생물학 외부의 변수의 인과관계를 평가하는 데 사용되었지만 이러한 기준조차도 인과성을 결정하는 배타적인 방법은 아니다.

분자 역학에서 연구되는 현상은 유전학을 포함한 분자생물학 수준에서 이루어지며, 여기서 바이오마커는 원인 또는 결과의 증거이다.

컴퓨터 과학에서의 접근[편집]

두 개의 시간 독립 변수(예: X 및 Y)에 대한 공동 관찰 데이터의 인과 관계 결정은 X → Y 및 Y → X 방향의 일부 모델에 대한 증거 간의 비대칭을 사용하여 해결되었다. 기본 접근 방식은 알고리즘 정보 이론 모델 및 소음 모델을 기반으로 한다.

사회 과학에서의 접근[편집]

일반적으로 사회과학은 인과관계를 평가하기 위한 양적 틀을 포함하는 쪽으로 점점 더 나아가고 있다. 이 중 많은 부분이 사회 과학 방법론에 더 엄격함을 제공하는 수단으로 설명되었다. 정치학은 1994년 Gary King, Robert Keohane 및 Sidney Verba의 Designing Social Inquiry 의 출판에 상당한 영향을 받았다. King, Keohane 및 Verba는 연구자가 양적 및 정성적 방법을 모두 적용하고 통계적 추론의 언어를 채택하여 관심 주제와 분석 단위를 더 명확하게 할 것을 권장한다.[6][7] 정량적 방법을 지지하는 사람들은 인과 관계를 추론하기 위한 표준으로 Donald Rubin 이 개발한 잠재적 결과 프레임워크를 점점 더 많이 채택하고 있다.

잠재적인 결과 프레임워크에서 통계적 추론에 많은 강조점이 남아 있지만 사회 과학 방법론자들은 때때로 "혼합 방법" 접근이라고 하는 질적 방법과 양적 방법 모두를 사용하여 인과 추론을 수행하는 새로운 도구를 개발했다.[8][9] 다양한 방법론적 접근을 옹호하는 사람들은 다양한 방법론이 다양한 연구 주제에 더 적합하다고 주장한다. 사회학자 허버트 스미스(Herbert Smith)와 정치학자 제임스 마호니(James Mahoney)와 게리 괴르츠(Gary Goertz)는 통계학자이자 1986년 기사 "통계와 인과적 추론(Statistics and Causal Inference)"의 저자인 폴 홀랜드(Paul Holland)의 관찰을 인용했다.[10][11] 정성적 방법론자들은 프로세스 추적 및 퍼지 집합 이론을 포함하여 공식화된 인과 관계 모델이 사례 연구 내에서 중요한 요인의 식별 또는 여러 사례 연구 간의 비교 과정을 통해 인과 관계를 추론할 수 있는 기회를 제공한다고 주장해 왔다.[7] 이러한 방법론은 제한된 수의 잠재적 관찰 또는 혼란스러운 변수의 존재로 인해 통계적 추론의 적용 가능성이 제한되는 주제에도 유용하다.

경제 과학정치 과학에서 인과 추론은 경제 및 정치 현실의 현실 세계 복잡성과 통제된 실험 내에서 많은 대규모 현상을 재현할 수 없기 때문에 종종 어렵다. 경제 및 정치 과학의 인과 추론은 사회 과학자가 사용할 수 있는 기술 수준의 증가, 사회 과학자 및 연구 수의 증가, 사회 과학 전반의 인과 추론 방법론의 개선으로 인해 방법론과 엄격성이 계속 향상되고 있다.[12]

경제학자와 정치학자는 인과 관계가 존재한다고 믿는 경우 이론(이론 중심 계량 경제학에서 종종 연구됨)을 사용하여 추정되는 인과 관계의 크기를 추정할 수 있다.[13] 이론가들은 인과관계가 있다고 믿어지는 메커니즘을 가정하고 제안된 이론을 정당화하기 위해 데이터 분석을 사용하여 효과를 설명할 수 있다. 예를 들어 이론가는 비가 경제 생산성에 변동을 일으키지만 그 반대는 사실이 아니라는 이론과 같이 논리를 사용하여 모델을 구성할 수 있다.[14]

도구 변수 (IV) 기법은 모델의 설명 변수 중 하나와 모델의 오차 항 사이의 상관 관계를 제거하는 것과 관련된 인과 관계를 결정하는 방법이다. 여기서 믿음은 모델의 오차항이 다른 변수의 변동과 관련이 있는 경우 모델의 오차항은 아마도 해당 설명 변수의 변동 효과일 수 있다는 것이다. 따라서 새로운 도구 변수의 도입을 통해 이 상관 관계를 제거하면 모델 전체에 존재하는 오류가 줄어든다.[15]

모델 구체화는 데이터 분석에 사용할 모델을 선택하는 행위이다. 사회 과학자(그리고 실제로 모든 과학자)는 서로 다른 모델이 서로 다른 관계를 잘 추정하기 때문에 사용할 올바른 모델을 결정해야 한다.[16]

모델 구체화는 한 기간의 행동 효과가 나중 기간에만 느껴지는 경우에 나타나는 느린 인과관계를 결정하는 데 유용할 수 있다. 상관 관계는 두 변수가 특정 방향으로 서로 영향을 미치는지 여부가 아니라 유사한 분산을 갖는지 여부만 측정한다는 점을 기억할 가치가 있다. 따라서 상관 관계만으로는 인과 관계의 방향을 결정할 수 없다. 인과적 행위가 인과적 효과보다 선행한다고 믿어지기 때문에 사회 과학자들은 일정 기간 동안 한 변수가 다른 변수에 미치는 영향을 구체적으로 찾는 모델을 사용할 수 있다.

과학계, 특히 사회과학계에서는 과학적 과실이 널리 퍼져 있다는 학자들의 우려가 있다. 과학적 연구는 광범위한 주제이기 때문에 연구자의 잘못이 없이 인과관계 추론을 약화시키는 이론적인 방법이 무궁무진하다. 그럼에도 불구하고 다수의 연구자들이 인과추론에 있어 기본적 의무를 다하지 않거나 충분히 다양한 방법을 실행하고 있지 않다는 과학자들의 우려가 남아 있다.[17][12][18][19]

각주[편집]

  1. Pearl, Judea (2009년 1월 1일). “Causal inference in statistics: An overview” (PDF). 《Statistics Surveys》 3: 96–146. doi:10.1214/09-SS057. 
  2. Morgan, Stephen; Winship, Chris (2007). 《Counterfactuals and Causal inference》. Cambridge University Press. ISBN 978-0-521-67193-4. 
  3. Schrodt, Philip A (2014년 3월 1일). “Seven deadly sins of contemporary quantitative political analysis”. 《Journal of Peace Research》 (영어) 51 (2): 287–300. doi:10.1177/0022343313499597. ISSN 0022-3433. 
  4. Landsittel, Douglas; Srivastava, Avantika; Kropf, Kristin (2020). “A Narrative Review of Methods for Causal Inference and Associated Educational Resources”. 《Quality Management in Health Care》 (영어) 29 (4): 260–269. doi:10.1097/QMH.0000000000000276. ISSN 1063-8628. PMID 32991545. 
  5. Hill, Austin Bradford (1965). “The Environment and Disease: Association or Causation?”. 《Proceedings of the Royal Society of Medicine58 (5): 295–300. doi:10.1177/003591576505800503. PMC 1898525. PMID 14283879. 
  6. King, Gary (2012). 《Designing social inquiry : scientific inference in qualitative research》. Princeton Univ. Press. ISBN 978-0691034713. OCLC 754613241. 
  7. Mahoney, James (January 2010). “After KKV”. 《World Politics》 62 (1): 120–147. doi:10.1017/S0043887109990220. JSTOR 40646193. 
  8. Creswell, John W.; Clark, Vicki L. Plano (2011). 《Designing and Conducting Mixed Methods Research》 (영어). SAGE Publications. ISBN 9781412975179. 
  9. Seawright, Jason (September 2016). 《Multi-Method Social Science by Jason Seawright》 (영어). doi:10.1017/CBO9781316160831. ISBN 9781316160831. 2019년 4월 18일에 확인함. 
  10. Smith, Herbert L. (2014년 2월 10일). “Effects of Causes and Causes of Effects: Some Remarks from the Sociological Side”. 《Sociological Methods and Research》 43 (3): 406–415. doi:10.1177/0049124114521149. PMC 4251584. PMID 25477697. 
  11. Goertz, Gary; Mahoney, James (2006). “A Tale of Two Cultures: Contrasting Quantitative and Qualitative Research”. 《Political Analysis》 (영어) 14 (3): 227–249. doi:10.1093/pan/mpj017. ISSN 1047-1987. 
  12. Angrist, Joshua D.; Pischke, Jörn-Steffen (June 2010). “The Credibility Revolution in Empirical Economics: How Better Research Design Is Taking the Con out of Econometrics”. 《Journal of Economic Perspectives》 (영어) 24 (2): 3–30. doi:10.1257/jep.24.2.3. ISSN 0895-3309. 
  13. University, Carnegie Mellon. “Theory of Causation - Department of Philosophy - Dietrich College of Humanities and Social Sciences - Carnegie Mellon University”. 《www.cmu.edu》 (영어). 2021년 2월 16일에 확인함. 
  14. Simon, Herbert (1977). 《Models of Discovery》. Dordrecht: Springer. 52쪽. 
  15. Angrist, Joshua D.; Krueger, Alan B. (2001). “Instrumental Variables and the Search for Identification: From Supply and Demand to Natural Experiments”. 《Journal of Economic Perspectives》 15 (4): 69–85. doi:10.1257/jep.15.4.69. 2021년 5월 6일에 원본 문서에서 보존된 문서. 2022년 4월 3일에 확인함. 
  16. 〈Model specification in regression analysis〉, 《Understanding Regression Analysis》 (영어), Springer US, 166-170쪽 
  17. Achen, Christopher H. (June 2002). “Toward a new political methodology: Microfoundations and ART”. 《Annual Review of Political Science》 (영어) 5 (1): 423–450. doi:10.1146/annurev.polisci.5.112801.080943. ISSN 1094-2939. 
  18. Dawes, Robyn M. (1979). “The robust beauty of improper linear models in decision making”. 《American Psychologist》 34 (7): 571–582. doi:10.1037/0003-066X.34.7.571. 
  19. Vandenbroucke, Jan P; Broadbent, Alex; Pearce, Neil (December 2016). “Causality and causal inference in epidemiology: the need for a pluralistic approach”. 《International Journal of Epidemiology》 45 (6): 1776–1786. doi:10.1093/ije/dyv341. ISSN 0300-5771. PMC 5841832. PMID 26800751.