Bioinformatics/Microbiome

OTU clustering

hyunss 2022. 9. 5. 23:12

OTU (Operational Taxonomic Unit)

  • 주로 미생물의 다양성 분석에서 사용하고 있는 단위로서, DNA시퀀싱 결과에서 유사한 sequences를 종들끼리 묶는 분류 단위이다.

  • OTU는 16S rRNA amplicon reads를 그룹화하여 미생물계의 분류학적인 프로파일링을 진행하는 metagenomics에서 매우 중요한 단위이다.

 

OTU identifiers가 중요한 이유

1) 각 OTU마다 어떠한 ID를 가지고 있는지, 가지고 있는 정보는 무엇인지 알 수 있다.

2) 각 OTU를 가지고 추가적인 분석이 가능하며 보다 정확한 species 및 strain 정보까지 알 수 있다.

3) OTU identifiers를 이용해 advance 분석이 가능하다.

 

위 그림은 OTU 분석 시 여러 DB를 사용하는 것에 대한 중요성을 보기 쉽게 그래프로 나타낸 것이다. 분석을 진행할 때 결과가 정확한지 이중으로 확인하는 과정이 필수적인데 이는 어떤 DB를 이용했는지에 따라 같은 샘플이더라도 결과가 다르게 나올 수 있기 때문이다.

OTU clustering

  • sequence를 기반으로 하는 OTU clustering은 미생물을 배양하지 않고도 다양한 환경에서 미생물 다양성을 쉽게 찾을 수 있다. 이때 기준은 보통 95% ~ 97%를 둔다.
  • Clustering을 하는 이유는 무수히 많은 sequence reads를 유사한 값으로 clustering하여 sequencing error를 보완하기 위해서 이다.

De novo를 이용한 OTU clustering을 나타낸 그림. 이 때 알고리즘에서 유사도를 95%, 97%, 혹은 99% 중 선택해 진행한다. Reference: https://m.blog.naver.com/sanigen/221230115054

1. OTU 클러스터링 방법

OTU clustering 방법에는 De novo방식, closed reference 방식, open reference 방식이 있다.

 

1) De novo OTU picking

  • Input sequences가 reference 없이 clustering algorithm에 의해 각각 align되어 OTU clustering이 되는 방법.

  • Reference database를 사용하지 않고, 대신 seed로서 sequence를 취하고, 다른 나머지 sequence에 대해 검색함.
  • De novo 방법으로는 UCLUST, CD-HIT, SUMACLUST, SWARM 등이 있다.

  • 주로 토양, 바다와 같은 환경에서의 microbiome 분석에 사용된다.

장점

  • Clustering에 쓰일 reference data가 없어도 사용이 가능하다.
  • 모든 reads가 clustering됨.

단점

  • 속도가 느리다. (Parallel하게 진행할 수 없다.)
  • 수백 만 개의 sequence를 포함하는 대규모 데이터 세트에는 부적합함.

  • 16S rRNA 유전자의 V2 및 V4 영역같은 겹치지 않는 amplicon을 사용하는 연구의 데이터는 비교할 수 없음.

 

2) Closed reference

Closed reference OTU clustering 그림. Reference: https://m.blog.naver.com/sanigen/221230115054

  • Reference sequence collection에 대해 input sequence (read)를 mapping하여 clustering시키는 방법.

  • 이 과정에서 hit되지 않은 sequences는 downstream analyses에서 제외된다. (Open reference와의 차이점)

  • 잘 특성화된 환경과 대규모 데이터 세트에 가장 적합한 방법으로 16S rRNA의 V2, V4 region과 같은 non-overlapping amplicons를 사용할 때 적절한 방법이다. (물론 reference sequences 역시 사용한 read의 variable region을 포함해야 함)

  • 주로 사람이나 쥐의 장내, 피부, 구강 내 미생물 분석에 사용된다.

장점

  • 속도가 빠르다.
  • 대규모 데이터 세트에도 사용이 가능하다
  • Reference를 사용해 tree 및 taxonomy에 대해 더 정확한 분석이 가능하다. 

단점

  • Reference data에 없는 새로운 종(novel diversity)을 찾아낼 수 없다.

 

3) Open reference

Open reference OTU clustering 그림. Reference: https://m.blog.naver.com/sanigen/221230115054

 

  • Input sequences가 reference에 mapping되어 OTU clustering되는 방법은 closed reference와 같지만, reference에 mapping되지 않은 sequences는 OTU clustering 과정에서 제외되지 않고 de novo OTU picking이 되어 de novo와 closed를 둘 다 사용하는 방법

  • 미생물 연구에서 현재 가장 선호되는 방법으로써, de novo OTU picking과 closed reference OTU picking을 결합한 것임.

  • 먼저 closed-reference approach를 사용하고, reference database에 클러스터링 되지 않은 것들에 대해 de novo를 실시함.

  • De novo clustering 되는 read는 OTU picking 끝에 클러스터됨.

  • Nonoverlapping amplicon에서는 사용할 수 없음.

장점

  • 모든 read가 clustering된다.

  • De novo OTU picking보다 속도가 빠르다.

단점

  • 분석 과정 중 일부 단계가 serially (연속적으로) 진행되기 때문에 이 단계에서 속도가 느리다. 특히 reference data에 없는 새로운 종이 매우 많을 경우 몇일 단위로 걸릴 수 있다.

 

2. OTU 클러스터링 알고리즘

1) 일반적인 클러스터링 알고리즘

Nearest neighbor 와 futhest neighbor 방법의 간단한 예시 reference: https://genome.cshlp.org/content/19/7/1141/F5.expansion.html

1–1) Nearest neighbor

  • 이웃 되어있는 각 서열들이 97% 동일함.

 

1–2) Furthest neighbor

  • 클러스터 안의 모든 sequence가 97% 동일함.

 

2) OTU 클러스터링 문제점

 

  • False-positives: 실제 sequence의 수보다 더 많은 OTUs 생성

  • Clustering artifact와 Noisy sequence

  • Poor taxonomic resolution (97% similarity라는 전체적 반경 최대 genus level까지 추론, 종의 수준까지는 어렵다)

  • Sequence input시 조건에 따라 OTUs가 달라짐.

다음과 같이 ???에 해당하는 것에 대해 정확한 분석이 힘들다. (poor taxonomic resolution)

 

3) ASV (Amplicon Sequence Variants)

OTU vs ASV

 

  • OTU의 문제점을 보완하기 위해 최근에는 ASV를 사용.

  • 유사한 것끼리 묶는 OTU 클러스터링 방식과는 다르게 noise를 지워가며 unique한 서열만 남기고 그것을 하나의 unit으로 결정.

  • 오류를 고려하여 원래의 생물학적 서열을 식별하려고 시도함.

  • Single-nucleotide 차이 수준까지 분석 가능함.

  • 여러 연구를 비교할 수 있음.

  • 새로운 종을 포착할 수 있다.

ASV와 OTU 비교 예시

 

반응형