16S rRNA를 통한 분석 시 알아야 하는 과정 및 개념

Bioinformatics/Microbiome

hyunss 2022. 8. 15. 01:13

Adapter는 sequence의 합성 과정에서의 사용을 목적으로 만들었기 때문에 분석을 시행하기 전에 제거하는 것이 필수적이다. Adapter sequence가 남아있을 경우 taxonomy 분석 과정에서 정확한 식별을 어렵게 만들기 때문이다.
Trimmomatic은 paired-end 데이터 처리에 특화되어 있으며 미생물 연구에서 많이 사용되는 플랫폼 중 하나다.
Cutadapt와 같은 tool을 사용하기도 한다.

Amplicon based sequencing 데이터는 짧은 데이터 단편을 많이 sequencing하지 않기 때문에 NGS 데이터에서 짧은 대용량의 데이터를 뽑아내는 작업을 한다.
2개 이상의 샘플의 sequence 데이터를 만들고자 할 때, Illumina 등 sequencing 플랫폼에서는 한 레인에서 매우 많은 데이터를 생성할 수 있다. 하지만 한 샘플에 대해 너무 많은 데이터를 생산할 필요가 없을 때 multiplexing 방법이 사용된다. 예를 들어 샘플이 4~6개이고 한 레인에서 600만개의 read가 만들어 지며 내가 필요한 read는 한 샘플당 100만개 정도라고 가정했을 때, 한 레인에 6개의 샘플을 로딩하여 한 샘플당 약 100만개씩 얻도록 할 수 있는데 이런 방법을 Multiplexing 방법이라고 한다.
여러 샘플을 한 번에 High throughput Sequencing (HTS) 을 통해 진행하기 때문에 비용과 시간을 절약할 수 있다.
위 과정에서 각 샘플들은 서로 다른 barcode로 tagging되는데 이 barcode를 barcode sequence (Tag) 라고 한다. barcode sequence는 모든 DNA fragment에 추가되며 이를 통해 샘플을 구별할 수 있다.
Multiplexing된 데이터를 barcode sequence를 이용해 sample별로 구별하는 작업을 demultiplexing이라고 한다.

Chimera는 둘 이상의 biological sequence가 잘못 결합되어 생긴 artifact sequence로 이를 제거하지 않을 경우 chimera가 새로운 유기체로 잘못 분석되고 diversity 분석에서 잘못된 결과가 도출될 수 있다.
16s rRNA 유전자의 amplicon 데이터는 PCR 증폭에 의해 생성되는데 이 PCR 증폭 반응이 variable region의 amplicon의 경우처럼 conserved region을 통과하는 경우, chimera가 생길 수 있다. 일단 chimera가 생성된 경우 후속 과정에서 추가로 계속 증폭된다.
이 chimera sequence의 판독은 고품질이지만, 생물학적 의미는 없으며, OUT picking 동안 (OUT 분석 과정에서) novel organism으로 잘못 해석된다. 그러므로 chimera를 식별하고 제거한 뒤 OUT clustering을 진행하는 tool을 이용해야 한다.

Roche 454 또는 Ion Torrent 플랫폼은 일반적으로 single-end read를 사용해 한 번에 전체 amplicon을 커버할 수 있다.
반대로 Illumina 플랫폼은 paired-end read를 사용해 single-end read보다 더 짧은 read를 사용하지만 amplicon의 양쪽 끝에서 읽으며 이 양쪽 끝 sequence를 merging하는 방식으로 OTU clustering을 진행한다.
일반적으로 demultiplexing 전에 in silico 상에서 병합이 되어야 하지만, barcode sequencd가 있기 때문에 demultiplexing 후에도 merge가 가능하다.

Operational Taxonomic Unit (OTU)는 주로 미생물의 diversity 분석에서 사용되는 단위로서, DNA sequencing 결과에서 유사한 sequence들을 종들끼리 묶는 분류 단위이다.
같은 종일지라도 sequence가 조금씩 다르며 그 차이가 적기도, 심하기도 하다. OTU는 그 유사도를 기반으로 assign하는 방법이다 (machine learning에서 supervised learning에 해당한다.).
Clustering을 하는 이유는 무수히 많은 sequence reads를 유사한 값으로 clustering하여 sequencing error를 보완하기 위해서이다.

(자세한 설명은 이후 포스팅에서 설명된다.)

(자세한 설명은 이후 포스팅에서 설명된다.)