Conpair - tumor.bam normal.bam 비교

반응형

-목차-

1. Conpair 란?

2. Conpair 설치

3. Conpair 과정

4. 문제점

 

1. Conpair 란?

1) Conpair tumor - normal pair에 대한 Concordance(일치율)과 Contamination(오염률) 추정해주는 툴

설명: 동일한 개체에서 추출한 샘플인지 일치성 검증 및 개별 오염 수준 추정을 해줍니다.

필요한 이유: 오염으로 인한 Germline 변이가 Somatic 변이로 잘못 해석될 여지가 있습니다.

 

성능: Copy number variation이 있어도, 0.1%의 LOD로 Contamination을 측정합니다. 

한계:

① Germline marker를 사용하기 때문에 같은 Germline 변이를 갖는 샘플들(ex 가족, 친척) 사이에서는 오염 수준이 과소 평가 됩니다.

Coverage가 20X 이상일때 제대로된 성능이 나옵니다.

 

2) Dependencies:

3) Input

① two bam files (tumor, normal)

 Human Genome file (GRCh37 or GRCh38) - hg38.dict, hg38.fa.fai 파일도 필요

 

2. Conpair 설치

1) 설치 : git clone https://github.com/nygenome/Conpair.git

 

nygenome/Conpair

Concordance and contamination estimator for tumor–normal pairs - nygenome/Conpair

github.com

3. Conpair 과정

1) Tumor_pileup과 Normal_pileup 생성

* 명령어

${CONPAIR_DIR}/scripts/run_gatk_pileup_for_sample.py -B TUMOR_bam -O TUMOR_pileup ${CONPAIR_DIR}/scripts/run_gatk_pileup_for_sample.py -B NORMAL_bam -O NORMAL_pileup

* pileup Data 예시

pileup Data 예시

  

2) Tumor 샘플과 Normal 샘플 사이의 Concordance 확인

Input : Tumor_pielup, Normal_pileup

* 명령어

${CONPAIR_DIR}/scripts/verify_concordance.py -T TUMOR_pileup -N NORMAL_pileup

* Concordance 파일 예시

Concordance 파일 예시

 

3) Tumor 샘플과 Normal 샘플 사이의 Contamination

* 명령어

${CONPAIR_DIR}/scripts/estimate_tumor_normal_contamination.py -T TUMOR_pileup -N NORMAL_pileup

* Contamination 파일 예시

Contamintaion 파일 예시

  

 

4. 문제점

1) Dependency에서 GATK 2.3 or higher 버전을 사용해야 합니다. 

  

위 사진의 버전을 모두 사용해보았지만, GATK 2.4.9버전만 제대로 작동하였으며, 이것도 코드상에서 특정 옵션(--filter_reads_with_N_cigar)을 제외해야 작동되었습니다.

Issue에 보면 gatk4를 사용해도 되도록 코드를 공유한 사례가있어 참고하여 코드를 수정해서 gatk4로 해봐야 합니다.

 

 

 

반응형

'생물정보학 > 생물정보학 Tools' 카테고리의 다른 글

VCF파일 인덱싱하기  (0) 2020.09.14
[Multiqc] Custom Contents  (0) 2020.09.02
bedtools merge  (0) 2020.07.25
bedtools - 양쪽 base pair 늘리고, 합치기  (3) 2020.07.16
MultiQC  (0) 2020.07.09

댓글

Designed by JB FACTORY