안녕하세요 저번 포스팅에서는 DNA를 직접 NGS기기에 넣어 나오는 생(raw) 데이터 FASTQ에 대해서 알아보았습니다. FASTQ : DNA 생(raw) 데이터!! 완벽 정리 FASTQ 데이터는 NGS기계에서 추출한 DNA 정보를 '데이터'형태로 보여주는 첫 파일입니다. 즉, FASTQ는 DNA 정보를 담고있는 아무 정제없는 가장 날 것의 데이터 입니다. 1. FASTQ의 구성 FASTQ는 아래 4줄이 bio-info.tistory.com 이번엔 이 FASTQ 데이터의 다음 단계인 Bam/Sam 파일이 뭔지, 어떻게 쓰이는건지 알아보겠습니다. Bam 파일을 이해하려면 FASTQ 데이터를 알아야 합니다. FASTQ 데이터는 read라고 불리는 매우 짧은 서열(50~200bp)들로 구성된 파일입니다. 보..
FASTQ 데이터는 NGS기계에서 추출한 DNA 정보를 '데이터'형태로 보여주는 첫 파일입니다. 즉, FASTQ는 DNA 정보를 담고있는 아무 정제없는 가장 날 것의 데이터 입니다. 1. FASTQ의 구성 FASTQ는 아래 4줄이 반복되는 형태를 갖습니다. @SEQ_ID Sequence + Quality scores 1) 첫 번째 줄 (@SEQ_ID) : 시퀀스 고유 ID로 NGS기기ID와 Cell Line 번호, index 서열 등의 기초정보를 담고 있습니다. 2) 두 번째 줄 (Sequence) : 시퀀싱된 1개 Read의 서열정보를 담고있습니다. (AGCT의 문자로만 이루어 집니다.) 3) 세 번째 줄 (+) : 여기는 항상 +가 있으며 그냥 구분자 입니다. 4) 네 번째 줄 (Quality sco..
1. 탄생 배경 1953년 왓슨과 크릭이 DNA 이중나선 구조를 밝히면서 분자생물학 혁명이 시작되었습니다. 이 혁명은 1960년대 중후반까지 지속되었고, 유전정보가 DNA로부터 RNA를 거쳐 단백질로 전달된다는 센트럴 도그마(Central Dogma) 패러다임이 정립되었습니다. 분자생물학의 기본 원리에 대한 큰 그림이 완성된 것입니다. 2. 정의 Central Dogma의 정의는 간략하게 말하면 'DNA에서 RNA로 전사되고, RNA에서 단백질로 번역 된다' 입니다. Central Dogma를 이루는 기본적인 원리는 3가지로 아래의 그림에 개략적으로 나와있습니다. 3가지는 DNA replication(DNA 자기복제), Transcription(전사), Translation(번역) 입니다. Central..
이전 포스팅 [생물정보학] - 생물정보학(Bioinformatics) 회사에서 생물정보학자는 무슨 일을 하는지, 현재 제가 하는 일은 무엇인지 간단히 알아보았습니다. 이번엔, DNA 데이터가 도착하면 항상 하는 기본 분석과정에 대해 알아보겠습니다. 기본 분석 알고리즘의 목적은 DNA로부터 질병과 관련된 돌연변이를 찾는 것입니다. 아래의 그림이 DNA 데이터 분석의 전체상입니다. 1. NGS 분석 알고리즘 과정 알고리즘의 과정은 크게 3 단계로, DNA 데이터 Quality Control -> 매핑(정렬) -> 돌연변이 검출로 나뉩니다. 1) DNA 데이터 Quality Control NGS(차세대 염기서열 분석)는 자체로 기술적 한계가 있습니다. 그래서, 자체적으로 DNA 서열 Raw Data에 추정 오..
이 글을 쓰는 이유는 회사마다 다르겠지만, 생물정보학 분야에선 어떤일을 하고, 어떤 역량이 요구되는지 제 경험과 더불어 최대한 보편적으로 정리하기 위함입니다. 1. 생물정보학이란? 생물정보학(Bioinformatics)이란 넓은 의미에서 생명과 관련된 데이터를 컴퓨터를 통해 분석하는 학문입니다. 주로 DNA 서열 데이터로부터 유전자 관련 정보를 분석하거나, 아미노산 서열정보 분석부터 단백질의 상호작용 정보를 분석합니다. 생물정보학은 생물학, 컴퓨터 과학, 통계학 등이 융합된 학문입니다. 2. 생물정보학자는 무슨일을 할까? 위에서 설명한 것 처럼 DNA 수준에서 단백질 수준까지, 분자적인 수준에서 컴퓨터를 통하여 데이터를 분석하는 일을 주로 하게됩니다. 3. 현재 하는일은 무엇인가? 저는 맞춤형 의료 분야..