Pfam

Pfam은 은닉마르코프모델(Hidden Markov model)을 이용하여 단백질의 family들의 다중서열정렬을 모아놓은 데이터베이스이다. Pfam은 A와 B의 두개 클래스를 제공하는데 A는 사람이 직접 들여다 보고 만들고 B는 기계를 이용 자동으로 만들고 있다. 이들 각각을 Pfam-A와 Pfam-B라 칭한다.

2008년 7월 28일을 기점으로 하여 현재 9723개의 protein family들이 Pfam-A에 분류되어있다.

목적 및 활용방법

기능을 모르는 단백질 서열이 있을 때 그것과 관계가 있다고 생각되는 서열을 찾는 것은 생명과학 분야에서 중요한 첫 걸음이다. 이를 위하여 여러방법들이 존재하는데 대표적으로 FASTA, BLAST, 그리고 Pfam방법이 있다. 이 세가지 방법들은 모두 서열정보만을 이용하여 검색을 한다는 것이 구조정보를 이용한 분류인 SCOP, CATH등과 다른 점이라 할 수 있겠다.

한계점

그러나 이들 서열정보를 이용하는 경우는 서열의 유사도 (sequence homology)가 낮지만 기능이나 구조는 유사할 다른 단백질 서열들을 찾는데 한계가 있다. 이들을 위해 remote homology search 하는 방법들이 활발히 연구되고 있다.

외부 링크

Pfam 홈페이지

이 글은 생물학에 관한 토막글입니다. 여러분의 지식으로 알차게 문서를 완성해 갑시다.