Bioinformatics/Microbiome

16S rRNA를 통한 분석 시 알아야 하는 과정 및 개념

hyunss 2022. 8. 15. 01:13

16S rRNA를 통한 분석 시 알아야 하는 과정 및 개념

1. Adapter Trimming

  • Adapter는 sequence의 합성 과정에서의 사용을 목적으로 만들었기 때문에 분석을 시행하기 전에 제거하는 것이 필수적이다. Adapter sequence가 남아있을 경우 taxonomy 분석 과정에서 정확한 식별을 어렵게 만들기 때문이다.

  • Trimmomatic은 paired-end 데이터 처리에 특화되어 있으며 미생물 연구에서 많이 사용되는 플랫폼 중 하나다.

  • Cutadapt와 같은 tool을 사용하기도 한다.

2. Multiplexing and Demultiplexing

  • Amplicon based sequencing 데이터는 짧은 데이터 단편을 많이 sequencing하지 않기 때문에 NGS 데이터에서 짧은 대용량의 데이터를 뽑아내는 작업을 한다.

  • 2개 이상의 샘플의 sequence 데이터를 만들고자 할 때, Illumina sequencing 플랫폼에서는 한 레인에서 매우 많은 데이터를 생성할 수 있다. 하지만 한 샘플에 대해 너무 많은 데이터를 생산할 필요가 없을 때 multiplexing 방법이 사용된다. 예를 들어 샘플이 4~6개이고 한 레인에서 600만개의 read가 만들어 지며 내가 필요한 read는 한 샘플당 100만개 정도라고 가정했을 때, 한 레인에 6개의 샘플을 로딩하여 한 샘플당 약 100만개씩 얻도록 할 수 있는데 이런 방법을 Multiplexing 방법이라고 한다.

  • 여러 샘플을 한 번에 High throughput Sequencing (HTS) 을 통해 진행하기 때문에 비용과 시간을 절약할 수 있다.

  • 위 과정에서 각 샘플들은 서로 다른 barcode로 tagging되는데 이 barcode를 barcode sequence (Tag) 라고 한다. barcode sequence는 모든 DNA fragment에 추가되며 이를 통해 샘플을 구별할 수 있다.

  • Multiplexing된 데이터를 barcode sequence를 이용해 sample별로 구별하는 작업을 demultiplexing이라고 한다.

3. Quality Trimming

  • Quality score (QS)를 기준으로 이를 만족하지 못하는 sequence를 제거하는 작업이다.

  • 보통 Q20 ~ Q30이 권장되며 이보다 낮은 quality score는 제거하는 것이 바람직하다.

4. Chimera checking

  • Chimera는 둘 이상의 biological sequence가 잘못 결합되어 생긴 artifact sequence로 이를 제거하지 않을 경우 chimera가 새로운 유기체로 잘못 분석되고 diversity 분석에서 잘못된 결과가 도출될 수 있다.

  • 16s rRNA 유전자의 amplicon 데이터는 PCR 증폭에 의해 생성되는데 이 PCR 증폭 반응이 variable region의 amplicon의 경우처럼 conserved region을 통과하는 경우, chimera가 생길 수 있다. 일단 chimera가 생성된 경우 후속 과정에서 추가로 계속 증폭된다.

  • 이 chimera sequence의 판독은 고품질이지만, 생물학적 의미는 없으며, OUT picking 동안 (OUT 분석 과정에서) novel organism으로 잘못 해석된다. 그러므로 chimera를 식별하고 제거한 뒤 OUT clustering을 진행하는 tool을 이용해야 한다.

5. Paired-end reads merging

  • Roche 454 또는 Ion Torrent 플랫폼은 일반적으로 single-end read를 사용해 한 번에 전체 amplicon을 커버할 수 있다.

  • 반대로 Illumina 플랫폼은 paired-end read를 사용해 single-end read보다 더 짧은 read를 사용하지만 amplicon의 양쪽 끝에서 읽으며 이 양쪽 끝 sequence를 merging하는 방식으로 OTU clustering을 진행한다.

  • 일반적으로 demultiplexing 전에 in silico 상에서 병합이 되어야 하지만, barcode sequencd가 있기 때문에 demultiplexing 후에도 merge가 가능하다.

6. OTU Clustering and OTU Table

  • Operational Taxonomic Unit (OTU)는 주로 미생물의 diversity 분석에서 사용되는 단위로서, DNA sequencing 결과에서 유사한 sequence들을 종들끼리 묶는 분류 단위이다.

  • 같은 종일지라도 sequence가 조금씩 다르며 그 차이가 적기도, 심하기도 하다. OTU는 그 유사도를 기반으로 assign하는 방법이다 (machine learning에서 supervised learning에 해당한다.).

  • Clustering을 하는 이유는 무수히 많은 sequence reads를 유사한 값으로 clustering하여 sequencing error를 보완하기 위해서이다.

(자세한 설명은 이후 포스팅에서 설명된다.)

  • OTU table은 amplicon metagenomics 데이터 표현에 사용되는 기본 구조이다.

  • OTU 분류체계가 할당되면 전체 데이터 세트를 OTU table로 변환할 수 있다.

OTU table의 예시 row는 OTU ID, column은 sample, 값은 OTU에 대한 읽기수를 의미한다. (reference: https://www.drive5.com/usearch/manual/qiime_classic.html)

 

7. Diversity Analysis

  • 환경에 존재하는 미생물이 얼마나 다양하게 존재하는지를 분석한다.

  • Alpha diversity: 하나의 샘플 내에서 구성을 확인한다. (within sample)

  • Beta diversity: 두 샘플 간에서 구성을 확인한다. (between sample)

  • Gamma diversity: 해당 환경 내에서의 구성을 확인한다. (landscape)

  • 질적 (quanlitative) 다양성: Features가 있는지 없는지를 확인한다.

  • 양적 (quantitative) 다양성: Features abundance를 확인한다.

  • Phylogenetic diversity: taxa간의 evolutionary relationship을 고려한다. (Tree of Life)

  • Non-phylogenetic diversity: 모든 taxa가 동일한 evolutionary relationship을 가진다고 가정한다.

(자세한 설명은 이후 포스팅에서 설명된다.)

반응형