1. Metagenome 개요
- Metagenome은 meta 와 genome이 합쳐진 단어로 많은 genome의 집단을 뜻한다.
- Metagenomics는 특정 환경(공기, 토양, 물, 인체 등)에 존재하는 모든 미생물의 유전정보를 이용해서 그 환경에 존재하는 다양한 미생물의 종류와 분포, 특정 환경에서의 기능을 이해하는 것이 목적이다.
- 일반적으로 특정 환경에서 샘플을 채취한 뒤 배양을 통해 미생물을 분석하게될 경우 배지 및 배양 환경에 따라서 특정 미생물은 검출할 수 없는 경우가 많아 채취한 환경에서 어떤 미생물이 존재하는지 정확히 아는 것은 힘들다. 그러나 최근 NGS 기술의 발달로 Metagenomics 분야가 발전하면서 배양과정을 생략하고 sample을 sequencing 과정을 거쳐 분석하는 Metagenomic analysis를 통해 보다 절약된 시간으로 정확한 분석을 할 수 있게 되었다.
2. Metagenome 분석 방법
- NGS 기술의 발달로 대량의 sequence를 쉽게 얻을 수 있게 되어 군집 내에서 비교적 적은 부분을 차지하는 미생물에 대해서도 분석이 용이해졌다.
- Metagenomic analysis에 사용되는 방법은 얻고 싶은 정보에 따라 Amplicon based analysis와 Whold metagenome based analysis, 2 가지로 나뉜다.
- Amplicon based: Taxonomy와 OTU의 abundance 정보를 통해서 diversity 분석 결과까지 얻을 수 있다.
- Whole metagenome based: Amplicon based 분석의 결과와 더불어 function에 대한 분석과 미생물 genome sequence의 재조합을 통한 분석이 가능하다.
1) Amplicon based (16S rRNA sequencing, Marker gene sequencing)
Amplicon sequencing이란?
- Amplicon sequencing은 DNA sequence에서 특정 유전자 부위를 PCR을 통해 증폭시키고, 해당 sequence 부위를 통해 미생물 균총을 확인하는 방법이다. 여기서 특정 유전자란 marker gene으로 bacteria나 archea의 경우 16S rRNA gene, fungi의 경우 ITS라는 DNA의 특정 부위가 이에 해당한다.
- 주로 분석하고자 하는 샘플 내의 미생물이 어떤 종인지 그 종류만 궁금한 경우에 사용된다.
- 16S rRNA sequencing 데이터 분석을 함에 있어 sequencing error를 제거하는 과정은 가장 중요하고 우선 순위가 높은 단계이다. Illumina 데이터에서 error rate가 0.1% 미만일지라도 16S rRNA 특성상 1 base pair만 달라지더라도 완전히 다른 group으로 해당 sequence가 annotation될 수 있기 때문이다.
- 위 문제의 해결을 위해 97% 이상의 유사도를 가지는 sequence들을 하나로 묶어서 OTU라는 하나의 새로운 단위를 정의하는 Clustering 방법이 사용되었다. 이후 기술의 발달로 인해 error를 줄이면서 sequence 변이를 찾아낼 수 있는 알고리즘 (DADA2, Debular 등)이 개발되면서 sOTU (sub-OTU) 혹은 ASV (Amplicon Sequence Variant)라는 개념이 생겨나게 되었고, 이를 이용해 분석을 수행하는 추세이다.
Amplicon sequencing의 장점
- 16S rRNA 일정부분만을 이용해 분석이 진행되기 때문에, 다른 방법에 비해 비교적 분석이 빠르고, 쉽고, 저렴하다.
- 또한, 거대한 public 데이터베이스가 존재하여 이를 이용한 손쉬운 분류군 확립을 수행할 수 있다.
- Host genome에 대한 간섭이 없다.
- False positive에 대한 risk가 적다.
Amplicon sequencing의 단점
- Gene level에서만 분석 결과가 제공되며 species level의 정보는 얻기 힘들다. (species level 에서는 정확도가 상당히 떨어져 대부분 unclassified 로 표현된다.)
- Metabolic function의 경우 간접적으로 예측해야 한다. (PICRUSt2와 같은 tool을 이용해 예측한다.)
- 단일 marker gene만 확인하기 때문에 편향된 데이터를 제공할 수 있다.
2) Whole metagenome based (shotgun sequencing)
Mapping-based method
- 생산된 read를 미리 구축된 유전자 데이터베이스에 비교해 어떤 분류군에 속하는지 알아내는 방법이다.
- k-mer에 기반한 방법을 많은 분석 tool에서 사용하고 있다.
- 대표적으로 kraken, MEGAN, HUMAnN2 등이 있다.
- 단, 데이터베이스를 기반으로 진행되기 때문에 이미 알려진 sequence 정보에 대해서는 비교적 정확한 정보를 얻을 수 있지만, 그렇지 않은 경우에는 분석이 어렵다.
Assembly-based method
- 특정 샘플 내의 모든 미생물 유전체 정보를 sequencing하는 방법으로, 짧은 read들을 여러 개 이어 붙여 contig 수준으로 sequence를 생성한 후 annotaion 및 하위 분석을 수행한다.
- 데이터베이스와 무관하게 긴 sequence를 만들어내는 것이기 때문에 아직 밝혀지지 않은 sequence에 대한 functional annotation을 수행할 수 있다는 장점이 있다.
- 단, Biodiversity가 높고 균총 분포가 너무 불규칙한 경우 assembly가 제대로 수행되지 않을 수 있다는 단점이 있다.
Shotgun sequencing의 장점
- Virus와 fungi의 경우 16S region을 가지고 있지 않아 16S rRNA 분석으로는 검출할 수 없지만 Whole metagenome은 sample 안에 있는 모든 DNA를 읽을 수 있기 때문에 검출이 가능하다.
- 전체적인 genome sequence를 target하기 위해 다양한 marker를 사용하기 때문에 amplicon based보다 결과가 덜 편향적이다.
- Species level에서 strain level까지 taxonomy 결과 확인이 가능하다.
- Functional analysis가 가능하다.
Shotgun sequencing의 단점
- 비용이 매우 비싸다. (NGS 데이터를 확보하는데 있어서 전체 genome을 sequencing하기 때문에 비싸다.)
- Host genome의 sequence가 포함되어 있을 수 있어 이를 제거하고 미생물의 데이터만을 뽑아내야 하기 때문에 과정이 복잡하다.
- 많은 genome이 섞여 있어 복잡하고 데이터의 크기가 크기 때문에 높은 사양의 컴퓨터가 요구된다.
반응형
'Bioinformatics > Microbiome' 카테고리의 다른 글
Shotgun Metagenome (2) | 2022.10.11 |
---|---|
Diversity Analysis (0) | 2022.09.05 |
OTU clustering (0) | 2022.09.05 |
16S rRNA를 통한 분석 시 알아야 하는 과정 및 개념 (0) | 2022.08.15 |
16S rRNA 개요 (0) | 2022.08.12 |