FASTQ 데이터는 NGS기계에서 추출한 DNA 정보를 '데이터'형태로 보여주는 첫 파일입니다. 즉, FASTQ는 DNA 정보를 담고있는 아무 정제없는 가장 날 것의 데이터 입니다. 1. FASTQ의 구성 FASTQ는 아래 4줄이 반복되는 형태를 갖습니다. @SEQ_ID Sequence + Quality scores 1) 첫 번째 줄 (@SEQ_ID) : 시퀀스 고유 ID로 NGS기기ID와 Cell Line 번호, index 서열 등의 기초정보를 담고 있습니다. 2) 두 번째 줄 (Sequence) : 시퀀싱된 1개 Read의 서열정보를 담고있습니다. (AGCT의 문자로만 이루어 집니다.) 3) 세 번째 줄 (+) : 여기는 항상 +가 있으며 그냥 구분자 입니다. 4) 네 번째 줄 (Quality sco..
1. MultiQC란? MultiQC는 bioinformatics 기본 분석 과정에 생성되는 log파일들을 자동으로 인식하고, 취합하여 보기 좋게 HTML 리포트를 생성해주는 툴입니다. 즉, bioinformatics의 여러 가지 툴들의 Output을 log파일로써 인식하여, 시각화를 해줍니다. MultiQC modules에서 어떤 툴들의 Output을 사용할 수 있는지 형태가 자세히 나옵니다. 기본적인 사용방법은 MultiQC document에 나와있으며, MultiQC github도 제공해 줍니다. 2. 설치 방법 conda를 이용한 설치방법과 pip를 이용한 설치방법이 있습니다. 1) conda 이용 a. multiqc 다운로드 conda install -c bioconda multiqc b. 만약..