VCF 파일 포맷: 변이 정보를 담은 포맷

반응형

-목차-

1. Variant calling(변이 검출)

2. VCF 파일

1) 파일 형식

 

1. Variant calling(변이 검출)

SAM/BAM 파일이 생성된 후에, 표준 유전체 서열과 다른 염기(돌연변이, 줄여서 변이라고 함)가 있는지 찾아내는 작업을 합니다. 이 과정을 변이 검출(Vairant calling)이라고 합니다. 표준 유전체의 각 위치별로 시퀀싱 리드(Read)를 종합하여 표준 유전체와 같은 염기(Ref base)와 표준 유전체와 다른 염기(Alt base) 개수를 비교하여 변이가 있는지 확률적으로 판단합니다. 

 

이때, 통계적 알고리즘을 사용하여 NGS 장비에서 발생한 에러, 매핑 과정에서 발생할 수 있는 에러 등의 에러들을 배제하고 진양성(True Positive) 변이를 검출하게 됩니다. 여기에 사용되는 프로그램의 종류, 내부 파라미터, 데이터 전처리(Data preprocessing), 결과 필터링(Filtering) 과정에 따라 같은 SAM/BAM 파일에 대해서 다른 결과가 나올 수 있습니다. 

그렇기 때문에 에러 변이인 위양성(False Positive)이나 위음성(False Negative)을 잘 판단하여야 합니다.

 

2. VCF 파일

검출된 변이는 VCF(Variant Call Format) 형식의 파일로 저장됩니다.

 

1) 파일 형식

① Metadata(Meta 정보)

VCF 파일의 맨 위에는 해당 VCF파일에 대한 설명이 ##을 통해 주석으로 존재합니다. 맨 윗줄에는 파일 형식(fileformat)과 VCF의 버전 정보가 있습니다. 그 아랫줄부턴 파일 생성일자(filedate)와 표준 유전체 참조 파일(Reference) 등의 정보가 작성되길 권장되며 없어도 무관합니다.

 그 아랫줄 부터는 칼럼의 값에 대한 설명이 쭉 나열됩니다. 주로, INFO칼럼과 FILTER 칼럼, FORMAT칼럼의 값에 대한 정보가 나열됩니다.

* INFO : INFO컬럼의 키-값(key=value 형식)쌍에 대한 설명.
* FILTER : filter에 통과한 PASS를 제외한 다른 값에 대한 설명.
* FORMAT : FORMAT 컬럼의 key가 갖는 의미를 설명하며, FORMAT 다음 컬럼에 key에 대한 value가 존재.

② 헤더(컬럼 이름)

VCF의 Metadata 바로 아래에는 #으로 시작하며, 칼럼 이름이 되는 헤더가 존재합니다.

 변이가 존재하는 염색체(CHROM), 유전체에서의 위치(POS), 해당 위치에서 표준 유전체의 염기서열(REF), 해당 샘플에서 관찰된 해당 위치의 변이 서열(ALT), 해당 변이의 품질 지수(QUAL), 필터링 기준 충족 여부(FILTER), 추가 정보 key=value 형식(INFO), 추가 확장 필드에 대한 정보(FORMAT) 등이 있습니다.

③ 내용

컬럼에 따른 내용이 존재합니다. 

그림 1) VCF 파일의 구조

 

 VCF 파일의 내용은 header 정보를 기반으로, 8개의 필수적인 열(CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO)과 샘플에 대한 추가 정보를 담은 열(FORMAT, S1(샘플 이름))들을 포함하는 무제한의 열(샘플 무제한으로 추가 가능)로 이루어져 있습니다.

그림 2) VCF파일의 컬럼 설명

 

 내용은 탭(tab)을 구분자로 합니다. 그렇기 때문에 VCF파일의 헤더 부분과 내용 부분을 테이블 형식(csv, tsv, excel)으로도 저장할 수 있습니다.

 

Reference)

그림 1,2) : 이승태, 이경아, 심효섭 외 6명, NGS 기반 유전자 검사의 이해 (식품의약품 안전평가원), 23p - 35p

반응형

댓글

Designed by JB FACTORY