본문으로 이동

롱 브랜치 어트랙션

위키백과, 우리 모두의 백과사전.

계통학에서 롱 브랜치 어트랙션(long branch attraction, LBA)은 멀리 떨어진 혈통이 가깝게 관련된 것으로 잘못 추론되는 체계적인 오류의 한 형태이다.[1] LBA는 혈통 내에 축적된 분자적 또는 형태학적 변화의 양이 해당 혈통이 다른 긴 가지 혈통과 유사하게 (따라서 밀접하게 관련되어) 보이게 할 만큼 충분할 때 발생한다. 이는 혈통이 하강에 의해 연결되어 있기 때문이 아니라 단순히 많은 양의 변화를 겪었기 때문이다. 이러한 편향은 일부 분류군의 전반적인 분기가 계통 발생 내에서 긴 가지를 초래할 때 더 흔하다. 긴 가지는 종종 계통수의 바닥으로 끌리는데, 이는 외군을 대표하기 위해 포함된 혈통 역시 긴 가지인 경우가 많기 때문이다. 진정한 LBA의 빈도는 불분명하며 종종 논쟁의 대상이 된다.[1][2][3] 일부 저자들은 이를 검증 불가능하며 따라서 경험적 계통 추론과 관련이 없다고 본다.[4] 비록 종종 절약 기반 방법론의 실패로 여겨지지만, LBA는 원칙적으로 다양한 시나리오에서 발생할 수 있고 여러 분석 패러다임 하에서 추론될 수 있다.

원인

[편집]

LBA는 처음에는 절약 기준에 따라 이산 형태학적 특성 세트를 분석할 때 문제점으로 인식되었지만, DNA 또는 단백질 서열의 최대 우도 분석 역시 취약하다. 펠젠스타인(Felsenstein) 1978년의 연구에서 간단한 가상 예시를 찾을 수 있는데, 특정 알려지지 않은 "진정한" 계통수에 대해 일부 방법은 긴 가지를 그룹화하는 편향을 보일 수 있으며, 궁극적으로 잘못된 자매 관계를 추론하게 된다는 것을 보여주었다.[5] 종종 이는 분석에 포함된 하나 이상의 형질에서 수렴 진화가 여러 분류군에서 발생했기 때문이다. 비록 독립적으로 유래했지만, 이러한 공유된 특성들은 공통 조상으로 인해 공유된 것으로 분석에서 오해될 수 있다.

계통학적계층적 군집화 분석에서, LBA는 군집화 알고리즘의 작동 방식의 결과이다: 많은 자가형질(하나의 가지에 고유한 형질 상태)을 가진 말단 또는 분류군은 우연히 다른 가지의 것과 동일한 상태를 나타낼 수 있다(상사성). 계통 분석은 다른 공유파생형질이 동형질적 특성보다 중요하여 진정한 자매 분류군을 함께 그룹화하지 않는 한, 이 분류군들을 하나의 계통군으로 묶을 것이다.

이러한 문제는 동일한 부위에서 여러 번의 치환을 보정하는 방법을 사용하거나, 긴 가지를 가진 분류군과 관련된 분류군을 추가하여 데이터에 추가적인 진정한 공유파생형질을 추가하거나, 또는 대안적으로 더 느리게 진화하는 형질(예: 더 보존적인 유전자 영역)을 사용하여 최소화할 수 있다.

결과

[편집]

진화 분석에서 LBA의 결과는 빠르게 진화하는 혈통이 그들의 진정한 관계와 관계없이 자매 분류군으로 추론될 수 있다는 것이다. 예를 들어, DNA 서열 기반 분석에서 이 문제는 두 개(또는 그 이상)의 혈통에서 서열이 빠르게 진화할 때 발생한다. 가능한 뉴클레오타이드는 네 가지뿐이며, DNA 치환 속도가 높을 때 두 혈통이 동일한 부위에서 동일한 뉴클레오타이드를 진화시킬 확률이 증가한다. 이 경우, 계통 분석은 이 상사성공유파생형질로 잘못 해석할 수 있다 (즉, 두 혈통의 공통 조상에서 한 번 진화한 것으로).

반대의 효과도 관찰될 수 있는데, 만약 두 개(또는 그 이상)의 가지가 더 넓고 빠르게 진화하는 그룹 내에서 특히 느린 진화를 보인다면, 이 가지들은 밀접하게 관련되어 있는 것으로 잘못 해석될 수 있다. 따라서 "롱 브랜치 어트랙션"은 어떤 면에서는 "가지 길이 끌림"으로 더 잘 표현될 수 있다. 그러나 일반적으로 끌림을 보이는 것은 긴 가지들이다.

롱 브랜치 어트랙션의 인식은 계통수가 잘못되었음을 시사하는 다른 증거가 있음을 의미한다. 예를 들어, 두 가지 다른 데이터 출처(즉, 분자 및 형태학적) 또는 심지어 다른 방법이나 분할 체계가 긴 가지 그룹의 다른 배치를 지지할 수 있다.[6] 헤니히의 보조 원리는 특정 반대 증거가 없는 한 공유파생형질이 사실상의 그룹화 증거로 간주되어야 한다고 제안한다 (헤니히, 1966; 슈와 브로어, 2009).

계통수 토폴로지에 롱 브랜치 어트랙션이 영향을 미치는지 여부를 판단하는 간단하고 효과적인 방법은 시달(Siddal)과 휘팅(Whiting)의 이름을 딴 SAW 방법이다. 만약 한 쌍의 분류군(A와 B) 사이에 롱 브랜치 어트랙션이 의심된다면, 단순히 분류군 A를 제거("가지 톱질")하고 분석을 다시 실행한다. 그런 다음 B를 제거하고 A를 교체한 후 분석을 다시 실행한다. 만약 두 분류군 중 어느 하나가 다른 분류군이 없을 때 다른 가지 지점에 나타난다면, 롱 브랜치 어트랙션의 증거가 있는 것이다. 한 분류군만 분석에 있을 때는 긴 가지가 서로를 끌어당길 수 없으므로, 처리 간에 일관된 분류군 배치는 롱 브랜치 어트랙션이 문제가 아님을 나타낼 것이다.[7]

예시

[편집]
롱 브랜치 어트랙션의 예. 이 "진정한 계통수"에서 A와 C로 이어지는 가지는 내부 가지나 B와 D로 이어지는 가지보다 더 많은 형질 상태 변형을 가질 것으로 예상될 수 있다. 

간단히 말해, 그림에 표시된 대로 가지 길이가 형질 상태 변화량에 비례하는 비뿌리 "진정한 계통수"에 분포된 단일 이진 형질(+/– 중 하나)을 고려한다고 가정해 보자. B에서 D까지의 진화 거리가 작으므로, 대부분의 경우 B와 D는 동일한 형질 상태를 나타낼 것이라고 가정한다. 여기서는 둘 다 +라고 가정한다(+와 –는 임의로 할당되며, 서로 바꾸는 것은 정의의 문제일 뿐이다). 이 경우, 네 가지 가능성이 남는다. A와 C가 모두 +일 수 있는데, 이 경우 모든 분류군이 동일하며 모든 계통수가 동일한 길이를 가진다. A가 +이고 C가 –일 수 있는데, 이 경우 하나의 형질만 다르며 모든 계통수가 동일한 길이를 가지므로 아무것도 배울 수 없다. 마찬가지로 A가 –이고 C가 +일 수 있다. 유일하게 남은 가능성은 A와 C가 모두 –인 경우이다. 그러나 이 경우, 우리는 A와 C 또는 B와 D를 다른 것과 관련하여 하나의 그룹으로 본다(하나의 형질 상태는 조상적이고 다른 하나는 파생적이며, 조상 상태는 그룹을 정의하지 않는다). 결과적으로, 이러한 유형의 "진정한 계통수"를 가질 때, 우리가 더 많은 데이터를 수집할수록(즉, 더 많은 형질을 연구할수록), 더 많은 형질이 상동성을 띠며 잘못된 계통수를 지지한다.[8] 물론, 실제 유기체의 계통 연구에서 경험적 데이터를 다룰 때, 우리는 진정한 계통수의 토폴로지를 결코 알지 못하며, 더 절약적인 (AC) 또는 (BD)가 정확한 가설일 수도 있다.

롱 브랜치 리펄전

[편집]

가능도 기반 추정치는 롱 브랜치 어트랙션에 비교적 더 강하지만, 그 반대 방식으로 실패할 수 있다. 즉, 두 개의 밀접하게 관련된 분류군이 긴 가지를 가질 때, 이들이 잘못 분리될 수 있다. 이것이 롱 브랜치 리펄전(long branch repulsion, LBR)이다.[9]

회피

[편집]

베이즈 추론최대 우도와 같은 비절약 방법은 LBA의 발생을 줄이는 경향이 있지만 완전히 제거하지는 못한다.[10] (베이즈는 이 점에서 LBA에 더 취약하다.)[11] 특히, 이들은 기본적인 치환 모델의 가정을 무효화하는 분류군 및 부위 간 조성 이질성(compositional heterogeneity)의 경우에 여전히 어려움을 겪는다. 이는 이러한 가능성을 고려하는 혼합 모델 또는 PMSF를 사용하여 피할 수 있다. 아미노산 재코딩 및 조성 테스트를 통한 데이터 필터링도 도움이 될 수 있다.[12]

빠르게 진화하는 부위와 같은 문제성 있는 데이터 부분을 제외하는 것이 도움이 될 수 있다. 분석에서 특정 분류군, 즉 긴 가지를 가진 분류군 자체 또는 일부 일반 분류군을 제외하는 것도 때때로 도움이 되지만, 분류군을 추가하는 것이 더 많은 경우에 도움이 되는 경향이 있다. 긴 가지를 가진 분류군과 관련된 분류군에서 데이터를 추가하면 가지를 더 작고 다루기 쉬운 조각으로 나눌 수 있다. LBA를 감지하는 데 유용한 더 많은 방법들이 있다. 감지 및 회피에 대한 실제 예시는 베르그스텐(Bergsten, 2005)에서 찾을 수 있다.[13]

방법 평가

[편집]

LBA와 LBR에 대한 방법의 저항력은 어려운 실제 또는 시뮬레이션 데이터를 사용하여 경험적으로 테스트된다. 실제 데이터의 경우 진정한 진실을 완전히 확신할 수는 없지만, 자연적이라는 것이 보장된다. 시뮬레이션 데이터의 경우 계통수의 "진정한" 형태와 진화 모델(자연 진화와 유사하기를 바라는)을 지정할 수 있다. 도전적인 것으로 알려진 일부 실제 데이터는 다음과 같다:[10]

  • 리벤스-맥 등(Leebens-Mack et al.) 2005년 속씨식물 데이터 세트, 단백질과 뉴클레오타이드가 분석에서 다른 결과를 생성했다.
  • 브링크만 등(Brinkmann et al.) 2005년 데이터 세트, 느리게 진화하는 진핵생물, 고세균, 그리고 빠르게 진화하는 미포자충류 한 종을 포함한다.
  • 라르티요 등(Lartillot et al.) 2007년의 "선형동물" 및 "편형동물" 데이터 세트.
  • 브라운 등(Brown et al.) 2013년 데이터 세트, "오바조아"를 복구할 수도 있고 못할 수도 있다.

시뮬레이션 측면에서는 고전적인 프로그램이 Seq-gen이다.[14] Pro-cov 페이지에는 다양한 종류의 이형성을 나타내는 여러 후기 Seq-gen 변형이 나열되어 있다.[15]

각주

[편집]
  1. 1 2 Bergsten, Johannes (2005년 4월 1일). A review of long-branch attraction (영어). Cladistics 21. 163–193쪽. doi:10.1111/j.1096-0031.2005.00059.x. ISSN 1096-0031. PMID 34892859. S2CID 55273819.
  2. Anderson, Frank E.; Swofford, David L. (November 2004). Should we be worried about long-branch attraction in real data sets? Investigations using metazoan 18S rDNA (영어). Molecular Phylogenetics and Evolution 33. 440–451쪽. Bibcode:2004MolPE..33..440A. doi:10.1016/j.ympev.2004.06.015. PMID 15336677.
  3. Huelsenbeck, John P. (1997년 3월 1일). Farrell, Brian (편집). Is the Felsenstein Zone a Fly Trap? (영어). Systematic Biology 46. 69–74쪽. doi:10.1093/sysbio/46.1.69. ISSN 1076-836X. PMID 11975354.
  4. Brower, Andrew V. Z. (October 2018). Statistical consistency and phylogenetic inference: a brief review (영어). Cladistics 34. 562–567쪽. Bibcode:2018Cladi..34..562B. doi:10.1111/cla.12216. ISSN 0748-3007. PMID 34649374.
  5. Felsenstein, J. (1978년 12월 1일). Cases in which Parsimony or Compatibility Methods will be Positively Misleading (영어). Systematic Biology 27. 401–410쪽. doi:10.1093/sysbio/27.4.401. ISSN 1063-5157.
  6. Coiro, Mario; Chomicki, Guillaume; Doyle, James A. (August 2018). Experimental signal dissection and method sensitivity analyses reaffirm the potential of fossils and morphology in the resolution of the relationship of angiosperms and Gnetales (PDF). Paleobiology 44. 490–510쪽. Bibcode:2018Pbio...44..490C. doi:10.1017/pab.2018.23. ISSN 0094-8373. S2CID 91488394.
  7. Siddall, M. E.; Whiting, M. F. (1999). Long-Branch Abstractions. Cladistics 15. 9–24쪽. doi:10.1111/j.1096-0031.1999.tb00391.x. S2CID 67853737.
  8. Huelsenbeck, J. P.; Hillis, D. M. (1993년 9월 1일). Success of Phylogenetic Methods in the Four-Taxon Case (영어). Systematic Biology 42. 247–264쪽. doi:10.1093/sysbio/42.3.247. ISSN 1063-5157.
  9. Siddall, ME (September 1998). Success of Parsimony in the Four-Taxon Case: Long-Branch Repulsion by Likelihood in the Farris Zone.. Cladistics: The International Journal of the Willi Hennig Society 14. 209–220쪽. doi:10.1111/j.1096-0031.1998.tb00334.x. PMID 34905829.
  10. 1 2 Wang, Huai-Chun; Minh, Bui Quang; Susko, Edward; Roger, Andrew J (2018년 3월 1일). Modeling Site Heterogeneity with Posterior Mean Site Frequency Profiles Accelerates Accurate Phylogenomic Estimation. Systematic Biology 67. 216–235쪽. doi:10.1093/sysbio/syx068. PMID 28950365.
  11. Kolaczkowski, B; Thornton, JW (2009년 12월 9일). Long-branch attraction bias and inconsistency in Bayesian phylogenetics.. PLOS ONE 4. Bibcode:2009PLoSO...4.7891K. doi:10.1371/journal.pone.0007891. PMC 2785476. PMID 20011052.
  12. Najle, Sebastián R.; Grau-Bové, Xavier; Elek, Anamaria; Navarrete, Cristina; Cianferoni, Damiano; Chiva, Cristina; Cañas-Armenteros, Didac; Mallabiabarrena, Arrate; Kamm, Kai; Sabidó, Eduard; Gruber-Vodicka, Harald; Schierwater, Bernd; Serrano, Luis; Sebé-Pedrós, Arnau (2023). Stepwise emergence of the neuronal gene expression program in early animal evolution. Cell 186. 4676–4693.e29쪽. doi:10.1016/j.cell.2023.08.027. hdl:10230/58738. PMC 10580291 |pmc= 값 확인 필요 (도움말). PMID 37729907.
  13. Bergsten, Johannes (April 2005). A review of long-branch attraction. Cladistics 21. 163–193쪽. doi:10.1111/j.1096-0031.2005.00059.x. PMID 34892859.
  14. Rambaut, Andrew; Grass, Nicholas C. (1997). Seq-Gen: an application for the Monte Carlo simulation of DNA sequence evolution along phylogenetic trees. Bioinformatics 13. 235–238쪽. doi:10.1093/bioinformatics/13.3.235. PMID 9183526.
  15. procov.html. www.mathstat.dal.ca.
  • Felsenstein, J. (2004): Inferring Phylogenies. Sinauer Associates, Sunderland, MA.
  • Hennig, W. (1966): Phylogenetic Systematics. University of Illinois Press, Urbana, IL.
  • Schuh, R. T. and Brower, A. V. Z. (2009): Biological Systematics: Principles and Applications, (2nd edn.) Cornell University Press, Ithaca, NY.
  • Grishin, Nick V. "Long Branch Attraction." Long Branch Attraction. Butterflies of America, 17 Aug. 2009. Web. 15 Sept. 2014. <http://butterfliesofamerica.com/knowhow/LBA.htm>.