MultiQC
- 생물정보학/생물정보학 Tools
- 2020. 7. 9.
1. MultiQC란?
MultiQC는 bioinformatics 기본 분석 과정에 생성되는 log파일들을 자동으로 인식하고, 취합하여 보기 좋게 HTML 리포트를 생성해주는 툴입니다.
즉, bioinformatics의 여러 가지 툴들의 Output을 log파일로써 인식하여, 시각화를 해줍니다.
MultiQC modules에서 어떤 툴들의 Output을 사용할 수 있는지 형태가 자세히 나옵니다.
기본적인 사용방법은 MultiQC document에 나와있으며, MultiQC github도 제공해 줍니다.
2. 설치 방법
conda를 이용한 설치방법과 pip를 이용한 설치방법이 있습니다.
1) conda 이용
a. multiqc 다운로드
conda install -c bioconda multiqc
b. 만약 python 버전이 3.5 이상이 아니면, 최신 버전 다운로드가 안되므로, python 버전 3.5 이상인지 확인 필요!
2) pip 이용
a. pip 최신화
pip install --upgrade pip
b. multiqc 다운로드
pip install multiqc
3. 사용 방법
1) 일반적인 사용법
multiqc .
분석 폴더에 가서 위의 명령어를 실행하면, 하위 디렉터리까지 모두 검사하여, multiqc의 모듈에 포함된 모든 로그 파일로부터 리포트를 생성해 줍니다.
분석 폴더가 매우 크다면, multiqc가 인식하는 로그 파일만 따로 모은 후, 해당 디렉터리에서 multiqc를 진행하면 빠르게 리포트를 생성할 수 있습니다.
4. 사용 예시
1) Test Data
위의 빨간 네모 박스가 multiqc 결과 생성된 파일들입니다. 최종 결과 리포트는 multiqc_report.html입니다.
위의 예시 파일을 간략하게 정리하면, 일루미나 장비에서 추출한 런폴더에서 아래의 명령어로 생성한 summary 파일과
interop_summary . --csv=1 > summary
DNA data에 대해 bcl2fastq한 결과 생성되는 Stats.json (로그 파일), fastp 결과 파일, fastqc 결과 파일이 이용되었습니다.
어떤 툴인지 몰라도 위의 툴들인 multiqc의 module에 포함되기 때문에 자동으로 인식하여 리포트를 생성해 줍니다.
* multiqc 결과 생성된 파일들
multiqc 결과 생성된 파일들에서
multiqc_source.txt를 보면 어떤 툴에 대해 어떤 파일을 사용했는지 자세히 나오게 됩니다.
위를 바탕으로 [생물정보학] - NGS 기반 DNA data 기본 분석에서 다뤘던 기본 분석 결과 생성된 로그 파일들을 한 곳에 모아 한 번에 multiqc를 돌리는 것이 효율적입니다.
2) 실제 예시
위처럼 쉘 스크립트를 통해, 로그 파일들을 한 곳에 모으고, 한 번에 multiqc를 돌리게 됩니다.
이상으로 MultiQC툴의 설치 방법과 사용 방법, 그리고 예시에 대해 알아보았습니다.
MultiQC를 사용하는 이유는 분석이 진행됨에 따라 DNA data가 어떻게 processing 되는지 한눈에 보기 좋게 시각화 하기 위함입니다.
아래에 첨부드리는 리포트가 최종 형태입니다. (MultiQC 홈페이지 예시 리포트)
MultiQC의 장점은 알아서 로그파일들을 인식해서, 보기 좋은 리포트를 생성해 준다는 점입니다. 가볍고 확장성 뛰어난 툴이니 한번 사용해보시길 권장드립니다.
다음에 더 좋은 글로 찾아오겠습니다.
읽어주셔서 감사합니다.
'생물정보학 > 생물정보학 Tools' 카테고리의 다른 글
VCF파일 인덱싱하기 (0) | 2020.09.14 |
---|---|
[Multiqc] Custom Contents (0) | 2020.09.02 |
Conpair - tumor.bam normal.bam 비교 (0) | 2020.08.24 |
bedtools merge (0) | 2020.07.25 |
bedtools - 양쪽 base pair 늘리고, 합치기 (3) | 2020.07.16 |