1. bedtools merge Input으로 들어온 bed 파일에 대해, 서로 겹치는 영역을 하나로 합쳐주는 기능입니다. 2. 주요 옵션 1) c 옵션: 컬럼 번호를 지정하여, -o 옵션을 수행합니다. 2) o 옵션: Default는 sum 이며 다양한 옵션이 존재합니다. 3. 예시 bedtools merge -i test.bed -c 4 -o collapse > test2.bed * 옵션 설명 -i test.bed : input으로 test.bed를 받는 옵션입니다. -c 4 : test.bed 파일에서 4번째 컬럼(아래 그림에서 Feature 컬럼)에 대해 -o 옵션을 적용합니다. -o collapse : 4번째 컬럼(Feature)에 대해 서로 영역이 합쳐지면, Feature 컬럼의 값이 콤마(,..
1. MultiQC란? MultiQC는 bioinformatics 기본 분석 과정에 생성되는 log파일들을 자동으로 인식하고, 취합하여 보기 좋게 HTML 리포트를 생성해주는 툴입니다. 즉, bioinformatics의 여러 가지 툴들의 Output을 log파일로써 인식하여, 시각화를 해줍니다. MultiQC modules에서 어떤 툴들의 Output을 사용할 수 있는지 형태가 자세히 나옵니다. 기본적인 사용방법은 MultiQC document에 나와있으며, MultiQC github도 제공해 줍니다. 2. 설치 방법 conda를 이용한 설치방법과 pip를 이용한 설치방법이 있습니다. 1) conda 이용 a. multiqc 다운로드 conda install -c bioconda multiqc b. 만약..
이전 포스팅 [생물정보학] - 생물정보학(Bioinformatics) 회사에서 생물정보학자는 무슨 일을 하는지, 현재 제가 하는 일은 무엇인지 간단히 알아보았습니다. 이번엔, DNA 데이터가 도착하면 항상 하는 기본 분석과정에 대해 알아보겠습니다. 기본 분석 알고리즘의 목적은 DNA로부터 질병과 관련된 돌연변이를 찾는 것입니다. 아래의 그림이 DNA 데이터 분석의 전체상입니다. 1. NGS 분석 알고리즘 과정 알고리즘의 과정은 크게 3 단계로, DNA 데이터 Quality Control -> 매핑(정렬) -> 돌연변이 검출로 나뉩니다. 1) DNA 데이터 Quality Control NGS(차세대 염기서열 분석)는 자체로 기술적 한계가 있습니다. 그래서, 자체적으로 DNA 서열 Raw Data에 추정 오..
이 글을 쓰는 이유는 회사마다 다르겠지만, 생물정보학 분야에선 어떤일을 하고, 어떤 역량이 요구되는지 제 경험과 더불어 최대한 보편적으로 정리하기 위함입니다. 1. 생물정보학이란? 생물정보학(Bioinformatics)이란 넓은 의미에서 생명과 관련된 데이터를 컴퓨터를 통해 분석하는 학문입니다. 주로 DNA 서열 데이터로부터 유전자 관련 정보를 분석하거나, 아미노산 서열정보 분석부터 단백질의 상호작용 정보를 분석합니다. 생물정보학은 생물학, 컴퓨터 과학, 통계학 등이 융합된 학문입니다. 2. 생물정보학자는 무슨일을 할까? 위에서 설명한 것 처럼 DNA 수준에서 단백질 수준까지, 분자적인 수준에서 컴퓨터를 통하여 데이터를 분석하는 일을 주로 하게됩니다. 3. 현재 하는일은 무엇인가? 저는 맞춤형 의료 분야..