NGS - DNA 데이터 분석 한장 요약
- 생물정보학/생물정보학 이론
- 2020. 8. 26.
1. NGS를 이용한 DNA 분석
NGS(Next Generation Sequencing)를 이용한 DNA 분석은 크게 3단계를 거쳐 진행됩니다.
① 라이브러리 제작(Library Preparation)
DNA를 일정한 조각(Fragment)으로 분절화(Shearing)시키고 NGS 장비가 인식할 수 있는 특정 염기서열(인덱스)을 붙여주는 과정.
② 라이브러리 DNA 읽기
제작된 라이브러리 DNA들을 NGS 기기에 넣고, 각 가닥의 염기서열을 읽는 단계. (NGS 시퀀서에서 진행)
③ 분석
장비에서 생성된 데이터를 가공하여 알고리즘으로 분석하는 단계
2. DNA 데이터 분석
시퀀싱이 끝나면 DNA 데이터를 분석합니다. 분석은 크게 3단계를 거쳐 진행됩니다.
① DNA 데이터 추출
NGS 시퀀싱 결과 나온 Data를 바탕으로 FASTQ 파일을 제작합니다.
[생물정보학] - FASTQ : DNA 생(raw) 데이터 정리
② 매핑(Mapping)
FASTQ 파일의 Read 정보들을 표준 유전체 정보를 기준으로 매핑(Mapping)합니다. 즉, 표준 유전체 서열과 맞는 부분에 Read를 갖다 붙이는 작업입니다. 정렬(Alignment)이라고도 합니다.
[생물정보학] - Bam/Sam 파일: 인간 유전체 정보를 담은 파일 포맷
③ 변이 검출(Variant Calling)
Bam 파일은 표준 유전체 서열에 대해 많은 Read들이 정렬된 파일로, 그 크기가 매우 큽니다. 여기서 표준 유전체 서열과 다른 부분 정보를 바탕으로 돌연변이를 찾는 과정입니다.
[생물정보학] - VCF 파일 포맷: 변이 정보를 담은 포맷
Reference)
그림) NGS의 개념 및 단계 : 이승태, 이경아, 심효섭 외 6명, NGS 기반 유전자 검사의 이해 (식품의약품 안전평가원), 6p
'생물정보학 > 생물정보학 이론' 카테고리의 다른 글
VCF 파일 포맷: 변이 정보를 담은 포맷 (0) | 2020.08.31 |
---|---|
생물정보학 - Fragment size와 Insert size란? (0) | 2020.08.29 |
Rosalind란? 생물정보학 알고리즘 문제 풀기 (0) | 2020.08.19 |
Bam/Sam 파일 포맷: 인간유전체 정보를 담은 포맷 (0) | 2020.08.18 |
FASTQ 파일 포맷 : DNA 생(raw) 데이터 정보를 담은 포맷 (0) | 2020.08.04 |