NGS 기반 DNA data 기본 분석

이전 포스팅 [생물정보학] - 생물정보학(Bioinformatics) 회사에서 생물정보학자는 무슨 일을 하는지, 현재 제가 하는 일은 무엇인지 간단히 알아보았습니다.

이번엔, DNA 데이터가 도착하면 항상 하는 기본 분석과정에 대해 알아보겠습니다.

기본 분석 알고리즘의 목적은 DNA로부터 질병과 관련된 돌연변이를 찾는 것입니다.

아래의 그림이 DNA 데이터 분석의 전체상입니다.

1. NGS 분석 알고리즘 과정

알고리즘의 과정은 크게 3 단계로, DNA 데이터 Quality Control -> 매핑(정렬) -> 돌연변이 검출로 나뉩니다.

1) DNA 데이터 Quality Control

NGS(차세대 염기서열 분석)는 자체로 기술적 한계가 있습니다. 그래서, 자체적으로 DNA 서열 Raw Data에 추정 오류를 수치로 나타내줍니다.

이렇게 생성된 데이터를 Fastq 파일이라고 합니다. (확장자가. fastq입니다.) 이 Fastq데이터를 정제(preprocessing)하며 오류를 줄이는 과정을 Quality Control이라고 합니다.

FastQC라는 리눅스 툴을 이용해 Fastq 파일의 Quality를 아래와 같이 시각화할 수 있습니다.

그림 3. FastQC 툴을 이용한 Quality Control 예. 품질이 우수한(좌) 결과와 좋지 않은 결과(우)

2) 매핑(Mapping)/ 정렬(Alignment)

시퀀싱 결과 생성된 FASTQ 파일은 보통 매우 짧은 서열(read)들로 구성되어 있습니다. 사람은 23쌍의 염색체로 이루어진 매우 긴 DNA 서열을 갖습니다.

(각 염색체는 떨어져 있으며, 염색체는 매우 긴 DNA 서열입니다. 예) 1번 염색체 DNA 길이: 약 2억 4천만 bp

bp는 base pair로 DNA 염기 1개 단위입니다.)

매우 짧은 서열 정보로는 어떤 염색체의 어느 위치에 있는 DNA에 돌연변이가 생긴 건지 파악할 수 없습니다. 그래서 인간의 표준 유전체(Reference genome) 정보를 참고하여 짧은 서열들을 이어 붙여 각 염색체 별로 DNA 서열을 정렬해야 하는데, 이 과정을 매핑(정렬) 과정이라고 합니다.

매핑(정렬)이 완료되면 각 FASTQ의 각 시퀀싱 서열(read) 별로 표준 유전체에서 어느 염색체 어디의 서열인지 번호 및 위치가 기록됩니다. 이를 SAM(Sequence Alignment Map) 파일이라고 부르고, 용량이 너무 크기 때문에 이진수 형태로 압축하여 BAM(Binary Alignment Map) 파일을 만듭니다.

3) 돌연변이 검출(Variant Calling)

BAM 파일이 생성되면, 위치별 변이가 갖는 의미를 파악합니다. 이 과정을 변이 검출(Variant Calling)이라 부르며, 표준 유전체 서열과 다른 모든 서열은 돌연변이(variation)로 간주합니다.

하지만, 실험 에러, NGS 장비의 에러, 매핑 과정의 에러 등 수많은 에러가 존재하기 때문에, DNA 정보를 제공한 사람이 갖는 진짜 돌연변이를 파악할 수 있는 통계적 알고리즘들이 적용돼야 합니다.

검출된 변이는 VCF(Variant Call Format) 파일로 저장됩니다. VCF파일은 행과 열로 이루어진 데이터 부분(엑셀로 볼 수 있는 형식)과 데이터가 무슨 의미인지 써두는 헤더 부분(##가 줄 맨 앞에 쓰여있음)으로 나뉩니다.

그 이후)

VCF 파일 이후부터는 변이에 대한 필터링 과정을 거쳐 돌연변이가 진짜인지를 분석하게 됩니다. 변이들의 패턴을 확인하고, 에러로 인한 변이인지 진짜 변이인지를 여러 가지 통계 알고리즘을 활용해 파악합니다. 이렇게 필터링하는 과정이 분석 시간의 많은 부분을 차지합니다.

이번에는 NGS 기반 DNA 데이터의 기본적인 분석 과정을 알아보았습니다.

다음에 더 좋은 글로 찾아오겠습니다.

Reference)

그림 3, 5 ~7: 이승태, 이경아, 심효섭 외 6명, NGS 기반 유전자 검사의 이해 (식품의약품안전평가원), 24p ~ 32p

그림 2: "김광중-차세대염기서열분석ngs-기술을-이용한-동방진/", 국가항암신약개발사업단, 2018년 6월 20일 수정, 2020년 6월 24일 접속, http://nov.ncc.re.kr/%EA%B9%80%EA%B4%91%EC%A4%91-%EC%B0%A8%EC%84%B8%EB%8C%80%EC%97%BC%EA%B8%B0%EC%84%9C%EC%97%B4%EB%B6%84%EC%84%9Dngs-%EA%B8%B0%EC%88%A0%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%9C-%EB%8F%99%EB%B0%98%EC%A7%84/

그림 4: "Human Genome", wikipedia, June 24. 2020, https://en.wikipedia.org/wiki/Human_genome#/media/File:Karyotype.png

'생물정보학 > 생물정보학 이론' 카테고리의 다른 글

타겟 선별과 NGS 시퀀싱 종류 (WGS, WES, Target-seq) (0)	2020.07.28
Central Dogma(중심원리)란? (4)	2020.07.02
암(Cancer)과 생물정보학(BioInformatics) (1)	2020.06.25
생물정보학(Bioinformatics) 회사 (3)	2020.06.18
생물정보학 분야에선 어떤일을 할까? (4)	2020.06.16

Sidebar - Right

블로그 정보

codingDNA

파이썬을 좋아합니다. Contact : cwjcsk@naver.com

통계

전체 :
오늘 :
어제 :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Coding DNA

NGS 기반 DNA data 기본 분석