OTU clustering
OTU (Operational Taxonomic Unit)
- 주로 미생물의 다양성 분석에서 사용하고 있는 단위로서, DNA시퀀싱 결과에서 유사한 sequences를 종들끼리 묶는 분류 단위이다.
- OTU는 16S rRNA amplicon reads를 그룹화하여 미생물계의 분류학적인 프로파일링을 진행하는 metagenomics에서 매우 중요한 단위이다.
OTU identifiers가 중요한 이유
1) 각 OTU마다 어떠한 ID를 가지고 있는지, 가지고 있는 정보는 무엇인지 알 수 있다.
2) 각 OTU를 가지고 추가적인 분석이 가능하며 보다 정확한 species 및 strain 정보까지 알 수 있다.
3) OTU identifiers를 이용해 advance 분석이 가능하다.
OTU clustering
- sequence를 기반으로 하는 OTU clustering은 미생물을 배양하지 않고도 다양한 환경에서 미생물 다양성을 쉽게 찾을 수 있다. 이때 기준은 보통 95% ~ 97%를 둔다.
- Clustering을 하는 이유는 무수히 많은 sequence reads를 유사한 값으로 clustering하여 sequencing error를 보완하기 위해서 이다.
1. OTU 클러스터링 방법
OTU clustering 방법에는 De novo방식, closed reference 방식, open reference 방식이 있다.
1) De novo OTU picking
- Input sequences가 reference 없이 clustering algorithm에 의해 각각 align되어 OTU clustering이 되는 방법.
- Reference database를 사용하지 않고, 대신 seed로서 sequence를 취하고, 다른 나머지 sequence에 대해 검색함.
- De novo 방법으로는 UCLUST, CD-HIT, SUMACLUST, SWARM 등이 있다.
- 주로 토양, 바다와 같은 환경에서의 microbiome 분석에 사용된다.
장점
- Clustering에 쓰일 reference data가 없어도 사용이 가능하다.
- 모든 reads가 clustering됨.
단점
- 속도가 느리다. (Parallel하게 진행할 수 없다.)
- 수백 만 개의 sequence를 포함하는 대규모 데이터 세트에는 부적합함.
- 16S rRNA 유전자의 V2 및 V4 영역같은 겹치지 않는 amplicon을 사용하는 연구의 데이터는 비교할 수 없음.
2) Closed reference
- Reference sequence collection에 대해 input sequence (read)를 mapping하여 clustering시키는 방법.
- 이 과정에서 hit되지 않은 sequences는 downstream analyses에서 제외된다. (Open reference와의 차이점)
- 잘 특성화된 환경과 대규모 데이터 세트에 가장 적합한 방법으로 16S rRNA의 V2, V4 region과 같은 non-overlapping amplicons를 사용할 때 적절한 방법이다. (물론 reference sequences 역시 사용한 read의 variable region을 포함해야 함)
- 주로 사람이나 쥐의 장내, 피부, 구강 내 미생물 분석에 사용된다.
장점
- 속도가 빠르다.
- 대규모 데이터 세트에도 사용이 가능하다
- Reference를 사용해 tree 및 taxonomy에 대해 더 정확한 분석이 가능하다.
단점
- Reference data에 없는 새로운 종(novel diversity)을 찾아낼 수 없다.
3) Open reference
- Input sequences가 reference에 mapping되어 OTU clustering되는 방법은 closed reference와 같지만, reference에 mapping되지 않은 sequences는 OTU clustering 과정에서 제외되지 않고 de novo OTU picking이 되어 de novo와 closed를 둘 다 사용하는 방법
- 미생물 연구에서 현재 가장 선호되는 방법으로써, de novo OTU picking과 closed reference OTU picking을 결합한 것임.
- 먼저 closed-reference approach를 사용하고, reference database에 클러스터링 되지 않은 것들에 대해 de novo를 실시함.
- De novo clustering 되는 read는 OTU picking 끝에 클러스터됨.
- Nonoverlapping amplicon에서는 사용할 수 없음.
장점
- 모든 read가 clustering된다.
- De novo OTU picking보다 속도가 빠르다.
단점
- 분석 과정 중 일부 단계가 serially (연속적으로) 진행되기 때문에 이 단계에서 속도가 느리다. 특히 reference data에 없는 새로운 종이 매우 많을 경우 몇일 단위로 걸릴 수 있다.
2. OTU 클러스터링 알고리즘
1) 일반적인 클러스터링 알고리즘
1–1) Nearest neighbor
- 이웃 되어있는 각 서열들이 97% 동일함.
1–2) Furthest neighbor
- 클러스터 안의 모든 sequence가 97% 동일함.
2) OTU 클러스터링 문제점
- False-positives: 실제 sequence의 수보다 더 많은 OTUs 생성
- Clustering artifact와 Noisy sequence
- Poor taxonomic resolution (97% similarity라는 전체적 반경 최대 genus level까지 추론, 종의 수준까지는 어렵다)
- Sequence input시 조건에 따라 OTUs가 달라짐.
3) ASV (Amplicon Sequence Variants)
OTU vs ASV
- OTU의 문제점을 보완하기 위해 최근에는 ASV를 사용.
- 유사한 것끼리 묶는 OTU 클러스터링 방식과는 다르게 noise를 지워가며 unique한 서열만 남기고 그것을 하나의 unit으로 결정.
- 오류를 고려하여 원래의 생물학적 서열을 식별하려고 시도함.
- Single-nucleotide 차이 수준까지 분석 가능함.
- 여러 연구를 비교할 수 있음.
- 새로운 종을 포착할 수 있다.