* Command line bgzip -c file.vcf > file.vcf.gz tabix -p vcf file.vcf.gz vcf파일을 인덱싱하기 위해선, bgzip으로 압축을 한 뒤에, tabix툴을 이용해 인덱싱을 진행합니다. vcf파일은 보통 .gz 형태로 압축을 하기 때문에 bgzip이 사용됩니다. 그 후, tabix에서 -p 옵션의 인자로 vcf를 주고, 인덱싱하고자 하는 vcf파일을 입력으로 주면 아래와 같은 vcf의 인덱싱 파일이 생성됩니다. * 결과 파일 file.vcf.gz.tbi 툴 설치 bgzip 설치 pip install bgzip tabix 설치 conda install -c bioconda tabix
-목차- 1. 배경 2. My module 리포트에 추가 3. 설치 4. 과정 5. 실행 [Tools] - MultiQC에서 Multiqc 툴에 대해 간단히 알아보았습니다. 이번엔 MultiQC에서 Custom Contents를 직접 코드로 짜고 데이터를 추가하는 방법을 알아보겠습니다. 1. 배경 MultiQC를 이용해 QC 리포트를 생성합니다. Custom Contents 이용을 위해 MultiQC는 개발자 모드로 사용합니다.(MultiQC v1.10.dev0) MulitQC에 없는 툴에 대한 로그파일은 직접 코드를 작성하여 그래프를 작성합니다. 2. My module 리포트에 추가 아래처럼 Multiqc리포트에 나만의 데이터를 시각화할 수 있습니다. 3. 설치 1) MultiQC의 깃헙 사이트(htt..
-목차- 1. Conpair 란? 2. Conpair 설치 3. Conpair 과정 4. 문제점 1. Conpair 란? 1) Conpair : tumor - normal pair에 대한 Concordance(일치율)과 Contamination(오염률) 추정해주는 툴 설명: 동일한 개체에서 추출한 샘플인지 일치성 검증 및 개별 오염 수준 추정을 해줍니다. 필요한 이유: 오염으로 인한 Germline 변이가 Somatic 변이로 잘못 해석될 여지가 있습니다. 성능: Copy number variation이 있어도, 0.1%의 LOD로 Contamination을 측정합니다. 한계: ① Germline marker를 사용하기 때문에 같은 Germline 변이를 갖는 샘플들(ex 가족, 친척) 사이에서는 오염 ..
1. bedtools merge Input으로 들어온 bed 파일에 대해, 서로 겹치는 영역을 하나로 합쳐주는 기능입니다. 2. 주요 옵션 1) c 옵션: 컬럼 번호를 지정하여, -o 옵션을 수행합니다. 2) o 옵션: Default는 sum 이며 다양한 옵션이 존재합니다. 3. 예시 bedtools merge -i test.bed -c 4 -o collapse > test2.bed * 옵션 설명 -i test.bed : input으로 test.bed를 받는 옵션입니다. -c 4 : test.bed 파일에서 4번째 컬럼(아래 그림에서 Feature 컬럼)에 대해 -o 옵션을 적용합니다. -o collapse : 4번째 컬럼(Feature)에 대해 서로 영역이 합쳐지면, Feature 컬럼의 값이 콤마(,..
1. slop: base pair 늘리기 bedtools slop -b 20 -i -g 설명: 의 모든 영역에 대해 앞, 뒤로 20 base pair 늘리는 명령어 입니다. # 링크: https://bedtools.readthedocs.io/en/latest/content/tools/slop.html * 파일은 전체 영역에 대한 bed 영역입니다. 일반적인 bam파일로부터 얻을 수 있습니다. 1) Genome 파일 만들기 ① 명령어 samtools view -H test.bam | grep LN | head -25 설명: bam 파일의 헤더부분(-H 옵션)중에서 길이 부분중에(grep LN) 25번째 line까지 확인 (미토콘드리아 염색체 길이 포함) ② 결과 사람에 대해 전체 영역에 대한 bed 파일을..
1. MultiQC란? MultiQC는 bioinformatics 기본 분석 과정에 생성되는 log파일들을 자동으로 인식하고, 취합하여 보기 좋게 HTML 리포트를 생성해주는 툴입니다. 즉, bioinformatics의 여러 가지 툴들의 Output을 log파일로써 인식하여, 시각화를 해줍니다. MultiQC modules에서 어떤 툴들의 Output을 사용할 수 있는지 형태가 자세히 나옵니다. 기본적인 사용방법은 MultiQC document에 나와있으며, MultiQC github도 제공해 줍니다. 2. 설치 방법 conda를 이용한 설치방법과 pip를 이용한 설치방법이 있습니다. 1) conda 이용 a. multiqc 다운로드 conda install -c bioconda multiqc b. 만약..