초안:지놈 마이닝

위키백과, 우리 모두의 백과사전.
지놈 마이닝은 생물정보학 연구와 밀접한 관련을 가집니다.

지놈 마이닝은 유전체 정보를 활용하여 다양한 대사 산물의 생합성 경로와 그들의 상호 작용을 발굴해내는 일련의 과정을 의미합니다.[1] 지놈 마이닝 프로세스는 지놈 데이터베이스에서 액세스할 수 있는 엄청난 양의 생물 정보 데이터(DNA 서열 및 주석으로 표시)를 기반으로, 다양한 생물정보학 도구를 활용하여 이루어집니다. 이 과정에서 데이터마이닝 알고리즘을 적용함으로써 새로운 천연물[2], 대사산물을 발견하고, 의약화학[3] [4] 내 다양한 분야의 지식적 기반을 마련할 수 있습니다.

역사[편집]

1980년대 중후반, 시퀀싱 기술의 발달과 함께 연구자들은 유전체 연구에 더욱 집중하기 시작했습니다.[5] 시퀀싱 기술의 발달로 유전체의 DNA 염기서열 데이터가 축적되고, 이러한 데이터의 수집, 관리, 저장 및 배포를 위해 1982년 GenBank 데이터베이스가 구축되었습니다. 데이터베이스에 축적되는 유전자 데이터가 증가함에 따라 1992년부터, 다양한 생명공학 기업들은 지놈 마이닝 기술을 통해 인간 DNA 서열을 활용한 단백질 의약품 및 항체 의햑품을 개발할 수 있게 되었습니다. [6] 1990년대 후반 암젠(Amgen), 이뮨넥(Immunec), 제넨텍(Genentech) 등 많은 생명공학 기업들은 지놈 마이닝 기술을 활용하여 임상 단계까지 진입한 신약을 개발하였습니다. [7] 인간 지놈 프로젝트가 2000년 초에 완료된 이후, 연구자들은 많은 미생물 의 지놈 서열을 분석해 왔습니다. [8] 그 결과로 분석된 다양한 미생물 유전체는 또 새로운 유전자, 대사 산물, 그들의 생합성 경로 연구에 활용되었습니다. [9]

알고리즘[편집]

대량의 지놈 서열 데이터가 공공 데이터베이스에 축적되기 시작하면서, 엄청난 양의 지놈 데이터를 해독하는 데에 유전 알고리즘의 중요성이 대두되었습니다. 유전 알고리즘은 유전체 상에서 발생하는 돌연변이, 교차, 자연선택에 의해 발생하는 탐색 문제에 대한 대한 고품질 솔루션을 제시할 수 있습니다. [10] 일반적으로 사용 되는 유전 알고리즘은 다음과 같습니다.

  • AntiSMASH(항생제 및 2차 대사산물 분석 쉘) [11] 은 2차 대사산물 지놈 파이프라인을 다룹니다. [12]
  • PRISM(Prediction Informatics for Secondary Metabolites) [13] 유전적으로 암호화된 비리보솜 펩타이드와 I형 및 II형 폴리케타이드의 화학 구조 예측에 대한 조합적 접근 방식입니다. [14]
  • FASTA 또는 PSI-BLAST 와 같은 SIM(통계 기반 서열 유사성) 방법은 직교 상동성을 추론합니다. [15]
  • BLAST (기본 로컬 정렬 검색 도구)는 신속한 서열 비교를 위한 접근 방식입니다. [16]

응용[편집]

지놈 마이닝은 새로운 대사산물을 발견하고, 관련된 생합성 경로를 밝히는 것을 용이하게 함으로써 새로운 천연물 발견에 활용됩니다. [17] [18]

천연물 발견[편집]

천연물의 생산은 미생물 유전체 내에 암호화된 생합성 유전자 클러스터 (BGC)에 의해 조절됩니다. [19] 지놈 마이닝을 도입하면 목표 천연물을 생산하는 BGC를 예측할 수 있습니다. [20] 천연물의 합성을 담당하는 중요한 효소로는 폴리케타이드 합성효소(PKS), 비리보솜 펩타이드 합성효소(NRPS), 리보솜 합성 펩타이드 및 번역 후 변형 펩타이드 (RiPP), 테르페노이드 등이 있습니다. [21] 이러한 천현물 합성에 중요한 효소를 발굴함에 따라 연구자들은 BGC가 인코딩하는 클래스를 파악하고 표적 유전자 클러스터를 알려진 유전자 클러스터와 비교할 수 있습니다. [22] 지놈 마이닝으로 밝혀진 천연물과 BGC는 분자 클로닝이라는 실험적 방법으로 숙주 미생물에서 에서 표적 BGC를 발현시킴으로써 그 관계를 검증할 수 있습니다. [23]

데이터베이스 및 도구[편집]

유전자 데이터는 데이터베이스에 축적되어 있습니다. 연구자들은 알고리즘을 활용하여 새로운 프로세스, 목표 및 제품을 발견하기 위해 데이터베이스에서 액세스할 수 있는 데이터를 해독할 수 있습니다. [10] 다음은 데이터베이스와 도구입니다.

  • GenBank 데이터베이스는 분석을 위한 지놈 데이터세트를 제공합니다. [24]
  • UCSC 지놈 브라우저
  • AntiSMASH-DB [11] 을 사용하면 새로 서열화된 BGC의 서열을 이전에 예측하고 실험적으로 특성화한 BGC의 서열과 비교할 수 있습니다. [25]
  • BIG-FAM [26] 은 생합성 유전자 클러스터 계열 데이터베이스입니다. [27]
  • DoBISCUIT [28] 은 2차 대사산물 생합성 유전자 클러스터의 데이터베이스입니다. [29]
  • MIBiG(생합성 유전자 클러스터 사양에 관한 최소 정보) [30] 생합성 유전자 클러스터 및 그 분자 산물에 대한 주석 및 메타데이터에 대한 표준을 제공합니다. [31]
  • iTOL(Interactive Tree of Life) [32] 은 계통발생수 표시, 조작 및 주석을 위한 웹 기반 도구입니다. [33]

참고자료[편집]

  1. “Genome Mining as New Challenge in Natural Products Discovery”. 《Marine Drugs》 18 (4): 199. April 2020. doi:10.3390/md18040199. PMC 7230286. PMID 32283638. 
  2. “Genome mining for novel natural product discovery”. 《Journal of Medicinal Chemistry》 51 (9): 2618–2628. May 2008. doi:10.1021/jm700948z. PMID 18393407. 
  3. “Mini review: Genome mining approaches for the identification of secondary metabolite biosynthetic gene clusters in Streptomyces. 《Computational and Structural Biotechnology Journal》 18: 1548–1556. 2020년 1월 1일. doi:10.1016/j.csbj.2020.06.024. PMC 7327026. PMID 32637051. 
  4. “A deep learning genome-mining strategy for biosynthetic gene cluster prediction”. 《Nucleic Acids Research》 47 (18): e110. October 2019. doi:10.1093/nar/gkz654. PMC 6765103. PMID 31400112. 
  5. “A novel method for nucleic acid sequence determination”. 《Journal of Theoretical Biology》 135 (3): 303–307. December 1988. Bibcode:1988JThBi.135..303B. doi:10.1016/S0022-5193(88)80246-7. PMID 3256722. 
  6. “Patents in genomics and human genetics”. 《Annual Review of Genomics and Human Genetics》 11 (1): 383–425. 2010년 9월 1일. doi:10.1146/annurev-genom-082509-141811. PMC 2935940. PMID 20590431. 
  7. “The evolution of genome mining in microbes - a review”. 《Natural Product Reports》 33 (8): 988–1005. August 2016. doi:10.1039/C6NP00025H. PMID 27272205. 
  8. “Genome sequence of an industrial microorganism Streptomyces avermitilis: deducing the ability of producing secondary metabolites”. 《Proceedings of the National Academy of Sciences of the United States of America》 98 (21): 12215–12220. October 2001. Bibcode:2001PNAS...9812215O. doi:10.1073/pnas.211433198. PMC 59794. PMID 11572948. 
  9. “Identification of Thiotetronic Acid Antibiotic Biosynthetic Pathways by Target-directed Genome Mining”. 《ACS Chemical Biology》 10 (12): 2841–2849. December 2015. doi:10.1021/acschembio.5b00658. PMC 4758359. PMID 26458099. 
  10. “Data structures and compression algorithms for genomic sequence data”. 《Bioinformatics》 25 (14): 1731–1738. July 2009. doi:10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783. 
  11. “AntiSMASH-DB”. 
  12. “antiSMASH: rapid identification, annotation and analysis of secondary metabolite biosynthesis gene clusters in bacterial and fungal genome sequences”. 《Nucleic Acids Research》 39 (Web Server issue): W339–W346. July 2011. doi:10.1093/nar/gkr466. PMC 3125804. PMID 21672958. 
  13. “PRISM”. Adapsyn Bioscience. 
  14. “Comprehensive prediction of secondary metabolite structure and biological activity from microbial genome sequences”. 《Nature Communications》 11 (1): 6058. November 2020. Bibcode:2020NatCo..11.6058S. doi:10.1038/s41467-020-19986-1. PMC 7699628. PMID 33247171. 
  15. “Confirmation of data mining based predictions of protein function”. 《Bioinformatics》 20 (7): 1110–1118. May 2004. doi:10.1093/bioinformatics/bth047. PMID 14764546. 
  16. “Basic local alignment search tool”. 《Journal of Molecular Biology》 215 (3): 403–410. October 1990. doi:10.1016/S0022-2836(05)80360-2. PMID 2231712. 
  17. “Genome mining for novel natural product discovery”. 《Journal of Medicinal Chemistry》 51 (9): 2618–2628. May 2008. doi:10.1021/jm700948z. PMID 18393407. Challis GL (May 2008). "Genome mining for novel natural product discovery". Journal of Medicinal Chemistry. 51 (9): 2618–2628. doi:10.1021/jm700948z. PMID 18393407.
  18. “Mining genomes to illuminate the specialized chemistry of life”. 《Nature Reviews. Genetics》 22 (9): 553–571. September 2021. doi:10.1038/s41576-021-00363-7. PMC 8364890. PMID 34083778. 
  19. “Discovery of microbial natural products by activation of silent biosynthetic gene clusters”. 《Nature Reviews. Microbiology》 13 (8): 509–523. August 2015. doi:10.1038/nrmicro3496. PMID 26119570. 
  20. “Genome mining of biosynthetic and chemotherapeutic gene clusters in Streptomyces bacteria”. 《Scientific Reports》 10 (1): 2003. February 2020. Bibcode:2020NatSR..10.2003B. doi:10.1038/s41598-020-58904-9. PMC 7005152. PMID 32029878. 
  21. “Natural products of filamentous fungi: enzymes, genes, and their regulation”. 《Natural Product Reports》 24 (2): 393–416. April 2007. doi:10.1039/B603084J. PMID 17390002. 
  22. “Genome mining for natural product biosynthetic gene clusters in the Subsection V cyanobacteria”. 《BMC Genomics》 16 (1): 669. September 2015. doi:10.1186/s12864-015-1855-z. PMC 4558948. PMID 26335778. 
  23. “Heterologous expression of natural product biosynthetic gene clusters in Streptomyces coelicolor: from genome mining to manipulation of biosynthetic pathways”. 《Journal of Industrial Microbiology & Biotechnology》 41 (2): 425–431. February 2014. doi:10.1007/s10295-013-1348-5. PMID 24096958. 
  24. “GenBank”. 《Nucleic Acids Research》 49 (D1): D92–D96. January 2021. doi:10.1093/nar/gkaa1023. PMC 7778897. PMID 33196830. 
  25. “IMG-ABC v.5.0: an update to the IMG/Atlas of Biosynthetic Gene Clusters Knowledgebase”. 《Nucleic Acids Research》 48 (D1): D422–D430. January 2020. doi:10.1093/nar/gkz932. PMC 7145673. PMID 31665416. 
  26. “BIG-FAM”. 
  27. “BiG-FAM: the biosynthetic gene cluster families database”. 《Nucleic Acids Research》 49 (D1): D490–D497. January 2021. doi:10.1093/nar/gkaa812. PMC 7778980. PMID 33010170. 
  28. “DoBISCUIT”. 
  29. “DoBISCUIT: a database of secondary metabolite biosynthetic gene clusters”. 《Nucleic Acids Research》 41 (Database issue): D408–D414. January 2013. doi:10.1093/nar/gks1177. PMC 3531092. PMID 23185043. 
  30. “MIBiG”. 
  31. “MIBiG 2.0: a repository for biosynthetic gene clusters of known function”. 《Nucleic Acids Research》 48 (D1): D454–D458. January 2020. doi:10.1093/nar/gkz882. PMC 7145714. PMID 31612915. 
  32. “iTOL”. 
  33. “Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees”. 《Nucleic Acids Research》 44 (W1): W242–W245. July 2016. doi:10.1093/nar/gkw290. PMC 4987883. PMID 27095192.