FASTQ 파일 포맷 : DNA 생(raw) 데이터 정보를 담은 포맷

반응형

 

From Pixabay Elias Sch's Image

 

FASTQ 데이터는 NGS기계에서 추출한 DNA 정보를 '데이터'형태로 보여주는 첫 파일입니다.

 

즉, FASTQDNA 정보를 담고있는 아무 정제없는 가장 날 것의 데이터 입니다.

 

1. FASTQ의 구성

FASTQ는 아래 4줄이 반복되는 형태를 갖습니다.

@SEQ_ID
Sequence
+
Quality scores

 

 

 

1) 첫 번째 줄 (@SEQ_ID) : 시퀀스 고유 ID로 NGS기기ID와 Cell Line 번호, index 서열 등의 기초정보를 담고 있습니다.

 

2) 두 번째 줄 (Sequence) : 시퀀싱된 1개 Read의 서열정보를 담고있습니다. (AGCT의 문자로만 이루어 집니다.)

 

3) 세 번째 줄 (+) : 여기는 항상 +가 있으며 그냥 구분자 입니다.

 

4) 네 번째 줄 (Quality scores) : Quality scores 또는 Phred score로 불립니다. 데이터 저장공간을 아끼기위해 ASCII코드로 각 base(염기 1개)의 품질점수를 표시합니다.

 

2.FASTQ 예시

1) 실제 예시

 

 

첫 번째 줄은 다음과 같이 @로 시작합니다.

@NDX550278:75:HFFGNBGXG:1:11101:23630:1039 1:N:0:CGGCTATG+NGGATAGG

사실 중요하진 않지만, 어떤 의미인지 1줄만 보겠습니다.

:를 구분자로 나누어집니다. 알아 두면 좋을 것은 색칠하겠습니다.

@NDX550278 : 기기 이름

75 : run id

HFFGNBGXG : Flow cell id

1 : Flow cell lane

11101 : tile number

23630 : x축 값

1039 : y축 값

1 : pair 정보

N : Y or N으로 read의 filter 여부

0 : control bit

CGGCTATG+NGGATAGG : index 서열

 

2) 설명용 예시

아래 그림의 왼쪽 빨간 박스는 실제 데이터엔 없고, 설명용입니다.

 

그림 1) FASTQ 파일의 예시

 

 

3. 품질점수(Phred 점수)

품질 점수란 NGS자체 기술적 한계와 실험적 원인에 의한 다양한 오류(error)의 가능성을 추정 오류로 계산한 것입니다.

 

그림 2) Phred quality score에 따른 시퀀싱 오류 확률

 

수식 자체는 이해하기 어렵고, 이해하지 않아도 됩니다.

(그래도 알고싶다면, 추정오류에 로그를 취하고 -10을 곱한 것입니다. 추정 오류가 작을 수록, Q숫자가 정수로 예쁘게 증가하기 위해 -10을 곱한 것 입니다.)

 

중요한건,

Q10이면 해당 염기가 오류일 확률이 10%,

Q20이면 해당 염기가 오류일확률이 1%,

Q30이면 오류일 확률이 0.1%입니다.

 

보통 Q30 정도는 되야 양호한 염기라고 생각합니다.

인간은 30억개의 염기를 갖기 때문에, 모든 염기가 Q30이라고 해도 확률적으론 300만개의 염기가 오류일 수 있습니다.

 

4. FASTQ데이터의 의미

보통 인간의 세포안에 있는 DNA를 추출하고 일정한 길이로 잘게 짤라 NGS 기계에 넣게됩니다.

그러면 NGS 기계에선 DNA서열 정보를 4가지 색깔의 형광색 이미지 파일로 만들고, 이를 bcl 파일이라고 합니다.

bcl2fastq라는 툴을 이용해서 bcl 파일을 FASTQ파일로 만들 수 있습니다.

 

이렇게 생성된 FASTQ 파일은 잘게 짤린 1개의 DNA 서열(read)에 대해 4줄씩 정보를 저장한 파일입니다.

 

즉, 1개의 read가 4줄(시퀀스 ID, 서열 정보, +, 품질 점수)로 표현되며, 이게 반복된 파일입니다.

 

이를 통해, DNA 서열과 각 서열의 품질까지 알 수 있게 됩니다.

 

이후에, FASTQ 데이터로부터 돌연변이를 찾고, 돌연변이로 부터 질병을 찾는 흐름이 생물정보학 분석의 흐름입니다.

 

 

이번엔 DNA 데이터중 가장 초기의 날(Raw) 데이터인 FASTQ 데이터에 대해 알아보았습니다.

다음에 더 좋은 글로 찾아오겠습니다.
읽어주셔서 감사합니다.

 

Reference)

그림 1), 그림 2) : 이승태, 이경아, 심효섭 외 6명, NGS 기반 유전자 검사의 이해 (식품의약품 안전평가원), 20p - 24p

 

 

반응형

댓글

Designed by JB FACTORY