VCF파일의 구조에 대해서 아래의 글에서 알아보았습니다. [생물정보학] - VCF 파일 포맷: 변이 정보를 담은 포맷 VCF 파일을 Input으로 데이터 정제를 하는데 주로 python이 많이 사용됩니다. 이때 VCF파일을 pandas 라이브러리의 DataFrame 형태로 읽어올 수 있습니다. 그러면 엑셀이나 tsv, csv로 내보낼 수도 있고, pandas 라이브러리를 이용해 VCF파일을 정제할 수 있습니다. * VCF파일을 DataFrame으로 가져오는 python 코드 import io import pandas as pd def read_vcf(path): with open(path, 'r') as f: lines = [l for l in f if not l.startswith('##')] retu..
-목차- 1. Variant calling(변이 검출) 2. VCF 파일 1) 파일 형식 1. Variant calling(변이 검출) SAM/BAM 파일이 생성된 후에, 표준 유전체 서열과 다른 염기(돌연변이, 줄여서 변이라고 함)가 있는지 찾아내는 작업을 합니다. 이 과정을 변이 검출(Vairant calling)이라고 합니다. 표준 유전체의 각 위치별로 시퀀싱 리드(Read)를 종합하여 표준 유전체와 같은 염기(Ref base)와 표준 유전체와 다른 염기(Alt base) 개수를 비교하여 변이가 있는지 확률적으로 판단합니다. 이때, 통계적 알고리즘을 사용하여 NGS 장비에서 발생한 에러, 매핑 과정에서 발생할 수 있는 에러 등의 에러들을 배제하고 진양성(True Positive) 변이를 검출하게 됩..