OTU clustering

Bioinformatics/Microbiome

hyunss 2022. 9. 5. 23:12

주로 미생물의 다양성 분석에서 사용하고 있는 단위로서, DNA시퀀싱 결과에서 유사한 sequences를 종들끼리 묶는 분류 단위이다.
OTU는 16S rRNA amplicon reads를 그룹화하여 미생물계의 분류학적인 프로파일링을 진행하는 metagenomics에서 매우 중요한 단위이다.

1) 각 OTU마다 어떠한 ID를 가지고 있는지, 가지고 있는 정보는 무엇인지 알 수 있다.

2) 각 OTU를 가지고 추가적인 분석이 가능하며 보다 정확한 species 및 strain 정보까지 알 수 있다.

3) OTU identifiers를 이용해 advance 분석이 가능하다.

sequence를 기반으로 하는 OTU clustering은 미생물을 배양하지 않고도 다양한 환경에서 미생물 다양성을 쉽게 찾을 수 있다. 이때 기준은 보통 95% ~ 97%를 둔다.
Clustering을 하는 이유는 무수히 많은 sequence reads를 유사한 값으로 clustering하여 sequencing error를 보완하기 위해서 이다.

OTU clustering 방법에는 De novo방식, closed reference 방식, open reference 방식이 있다.

1) De novo OTU picking

Input sequences가 reference 없이 clustering algorithm에 의해 각각 align되어 OTU clustering이 되는 방법.
Reference database를 사용하지 않고, 대신 seed로서 sequence를 취하고, 다른 나머지 sequence에 대해 검색함.
De novo 방법으로는 UCLUST, CD-HIT, SUMACLUST, SWARM 등이 있다.
주로 토양, 바다와 같은 환경에서의 microbiome 분석에 사용된다.

장점

단점

2) Closed reference

Reference sequence collection에 대해 input sequence (read)를 mapping하여 clustering시키는 방법.
이 과정에서 hit되지 않은 sequences는 downstream analyses에서 제외된다. (Open reference와의 차이점)
잘 특성화된 환경과 대규모 데이터 세트에 가장 적합한 방법으로 16S rRNA의 V2, V4 region과 같은 non-overlapping amplicons를 사용할 때 적절한 방법이다. (물론 reference sequences 역시 사용한 read의 variable region을 포함해야 함)
주로 사람이나 쥐의 장내, 피부, 구강 내 미생물 분석에 사용된다.

장점

단점

3) Open reference

Input sequences가 reference에 mapping되어 OTU clustering되는 방법은 closed reference와 같지만, reference에 mapping되지 않은 sequences는 OTU clustering 과정에서 제외되지 않고 de novo OTU picking이 되어 de novo와 closed를 둘 다 사용하는 방법
미생물 연구에서 현재 가장 선호되는 방법으로써, de novo OTU picking과 closed reference OTU picking을 결합한 것임.
먼저 closed-reference approach를 사용하고, reference database에 클러스터링 되지 않은 것들에 대해 de novo를 실시함.
De novo clustering 되는 read는 OTU picking 끝에 클러스터됨.
Nonoverlapping amplicon에서는 사용할 수 없음.

장점

단점

분석 과정 중 일부 단계가 serially (연속적으로) 진행되기 때문에 이 단계에서 속도가 느리다. 특히 reference data에 없는 새로운 종이 매우 많을 경우 몇일 단위로 걸릴 수 있다.

1) 일반적인 클러스터링 알고리즘

1–1) Nearest neighbor

1–2) Furthest neighbor

False-positives: 실제 sequence의 수보다 더 많은 OTUs 생성
Clustering artifact와 Noisy sequence
Poor taxonomic resolution (97% similarity라는 전체적 반경 최대 genus level까지 추론, 종의 수준까지는 어렵다)
Sequence input시 조건에 따라 OTUs가 달라짐.

OTU vs ASV