Conpair - tumor.bam normal.bam 비교
- 생물정보학/생물정보학 Tools
- 2020. 8. 24.
-목차-
1. Conpair 란?
2. Conpair 설치
3. Conpair 과정
4. 문제점
1. Conpair 란?
1) Conpair : tumor - normal pair에 대한 Concordance(일치율)과 Contamination(오염률) 추정해주는 툴
설명: 동일한 개체에서 추출한 샘플인지 일치성 검증 및 개별 오염 수준 추정을 해줍니다.
필요한 이유: 오염으로 인한 Germline 변이가 Somatic 변이로 잘못 해석될 여지가 있습니다.
성능: Copy number variation이 있어도, 0.1%의 LOD로 Contamination을 측정합니다.
한계:
① Germline marker를 사용하기 때문에 같은 Germline 변이를 갖는 샘플들(ex 가족, 친척) 사이에서는 오염 수준이 과소 평가 됩니다.
② Coverage가 20X 이상일때 제대로된 성능이 나옵니다.
2) Dependencies:
- python 2.7 or higher : www.python.org
- numpy 1.7.0 or higher : www.numpy.org
- scipy 0.14.0 or higher : www.scipy.org
- GATK 2.3 or higher : www.broadinstitute.org/gatk/download
- java : http://java.com
3) Input
① two bam files (tumor, normal)
② Human Genome file (GRCh37 or GRCh38) - hg38.dict, hg38.fa.fai 파일도 필요
2. Conpair 설치
1) 설치 : git clone https://github.com/nygenome/Conpair.git
3. Conpair 과정
1) Tumor_pileup과 Normal_pileup 생성
* 명령어
${CONPAIR_DIR}/scripts/run_gatk_pileup_for_sample.py -B TUMOR_bam -O TUMOR_pileup ${CONPAIR_DIR}/scripts/run_gatk_pileup_for_sample.py -B NORMAL_bam -O NORMAL_pileup
* pileup Data 예시
2) Tumor 샘플과 Normal 샘플 사이의 Concordance 확인
Input : Tumor_pielup, Normal_pileup
* 명령어
${CONPAIR_DIR}/scripts/verify_concordance.py -T TUMOR_pileup -N NORMAL_pileup
* Concordance 파일 예시
3) Tumor 샘플과 Normal 샘플 사이의 Contamination
* 명령어
${CONPAIR_DIR}/scripts/estimate_tumor_normal_contamination.py -T TUMOR_pileup -N NORMAL_pileup
* Contamination 파일 예시
4. 문제점
1) Dependency에서 GATK 2.3 or higher 버전을 사용해야 합니다.
위 사진의 버전을 모두 사용해보았지만, GATK 2.4.9버전만 제대로 작동하였으며, 이것도 코드상에서 특정 옵션(--filter_reads_with_N_cigar)을 제외해야 작동되었습니다.
Issue에 보면 gatk4를 사용해도 되도록 코드를 공유한 사례가있어 참고하여 코드를 수정해서 gatk4로 해봐야 합니다.
'생물정보학 > 생물정보학 Tools' 카테고리의 다른 글
VCF파일 인덱싱하기 (0) | 2020.09.14 |
---|---|
[Multiqc] Custom Contents (0) | 2020.09.02 |
bedtools merge (0) | 2020.07.25 |
bedtools - 양쪽 base pair 늘리고, 합치기 (3) | 2020.07.16 |
MultiQC (0) | 2020.07.09 |