진균 분류를 위한 핵심 유전자 데이터베이스 및 파이프라인 개발
[연구필요성]
박테리아를 비롯한 미생물에서는 핵심 유전자를 활용한 분류학이 자리 잡고 있지만, 진균 등의 진핵생물의 경우 유전체 정보의 부족으로 이러한 연구가 제한적이었다. 최근 유전체 분석 기술의 비약적인 발전으로 진균에서도 핵심 유전자를 이용한 분류학의 가능성이 열렸지만, 이를 정립하고 자동화하는 데이터베이스와 파이프라인은 그동안 개발되지 않았다.
[연구성과/기대효과]
본 연구는 대규모 생물정보학적 분석으로 진균의 핵심 유전자 61종을 발굴하고, 이를 데이터베이스로 공개하였다. 또한 진균의 유전체, 전사체, 단백질체 데이터로부터 발굴한 유전자를 추출하고, 계통수를 작성하는 자동화된 파이프라인을 개발하였다. 본 연구를 통해 진균의 유전 정보를 쉽게 계통분석에 활용할 수 있게 함으로써, 진균의 분류학과 생태학 연구에 유용한 도구로 활용되리라 기대된다.
[본문]
종의 진화에 대한 정보를 담고 있는 핵심 유전자는 계통분류학의 주된 도구로 사용되어 왔다. 유전정보의 분석이 비교적 쉬운 박테리아 등 미생물의 경우, 핵심 유전자를 바탕으로 한 계통학 파이프라인이 다수 공개되어 주목받고 있다. 이에 반해 진균 등의 진핵생물은 그동안 유전체 분석의 어려움과 높은 비용으로 인해 이러한 연구가 제한되어왔다. 최근 유전체 분석 기술의 비약적인 발전으로 진균에서도 핵심 유전자를 바탕으로 한 분류학이 가능해졌지만, 유전자들을 정리하고 자동화된 계통분류를 수행할 수 있는 데이터베이스와 파이프라인은 개발되지 않았다.
본 연구는 공개된 12,027개 진균 유전체와 35,591개 유전자를 비교하는 대규모 생물정보학적 분석으로 진균의 핵심 유전자 61종을 발굴하였다. 발굴한 핵심 유전자에는 기존 진균 분류학에서 꾸준히 연구되어 온 유전자 20종뿐만 아니라, 대규모 분석을 통해 새로이 찾은 유전자 41종이 포함되어 있으며, 유전자들의 서열 데이터 등 세부 정보를 취합하여 데이터베이스로 공개하였다.
본 연구는 또한 진균의 유전정보로부터 발굴한 유전자를 추출하고, 여러 진균종을 비교하여 근연관계를 유추한 뒤 계통수를 작성하는 자동화된 파이프라인을 개발하여 배포하였다. 파이프라인은 진균의 유전체/전사체/단백질체 데이터로부터 핵심 유전자를 빠르게 추출하고, 이들을 비교하여 여러 종의 근연관계를 유추한 뒤 계통수를 작성하는 기능을 포함하고 있다.
본 연구를 통해 공개된 핵심 유전자 데이터베이스와 분석 파이프라인은, 앞으로 빠르게 추가될 다양한 종류의 진균 유전정보의 활용 가능성을 높이는 유용한 분류학・생태학 도구로써 활용되리라 기대된다.
본 연구는 과학기술정보통신부 산하 기초과학연구원의 국가연구개발사업의 지원을 받아 진행되었으며, 서울대학교 생명과학부 마틴 스타이네거 교수 연구팀 주도로 이루어졌으며, 생명과학 분야 저명한 국제 학술지 Nucleic Acids Research (IF 19.160) 에 게재되었다.
[연구결과]
UFCG: database of universal fungal genes and pipeline for genome-wide phylogenetic analysis of fungi
Dongwook Kim, Cameron L.M. Gilchrist, Jongsik Chun, and Martin Steinegger
(Nucleic Acids Research, gkac894, https://doi.org/10.1093/nar/gkac894)
In phylogenomics the evolutionary relationship of organisms is studied by their genomic information. A common approach to phylogenomics is to extract related genes from each organism, build a multiple sequence alignment and then reconstruct evolution relations through a phylogenetic tree. Often a set of highly conserved genes occurring in single-copy, called core genes, are used for this analysis, as they allow efficient automation within a taxonomic clade. Here we introduce the Universal Fungal Core Genes (UFCG) database and pipeline for genome-wide phylogenetic analysis of fungi. The UFCG database consists of 61 curated fungal marker genes, including a novel set of 41 computationally derived core genes and 20 canonical genes derived from literature, as well as marker gene sequences extracted from publicly available fungal genomes. Furthermore, we provide an easy-to-use, fully automated and open-source pipeline for marker gene extraction, training and phylogenetic tree reconstruction. The UFCG pipeline can identify marker genes from genomic, proteomic and transcriptomic data, while producing phylogenies consistent with those previously reported, and is publicly available together with the UFCG database at https://ufcg.steineggerlab.com.
[용어설명]
핵심 유전자란 분류군 내의 대부분의 종이 공유하고 있는 유전자를 의미한다. 핵심 유전자는 해당 분류군의 진화에 대한 정보를 서열 내에 담고 있어, 이들의 서열을 비교함으로써 여러 종 사이의 근연관계를 유추할 수 있다. 본 연구에서는 진균 대부분이 공유하는 유전자 61종을 찾아 데이터베이스로 공개하였다.
[그림설명]