서버를 사용하다 보면 docker를 이용해서 사용자 환경을 구성해야 하는 경우가 있습니다. 이번엔 서버에서 docker를 이용하여 jupyter-notebook을 띄우고, 일반 로컬 컴퓨터에서 접속하는 방법에 대해 알아보겠습니다. 또한, 주피터 노트북 커널 추가하는 방법을 알아보겠습니다. * 환경 세팅 1) docker 설치: https://www.leafcats.com/153 리눅스에 도커(Docker) 설치하기 도커는 리눅스 뿐만 아니라 Mac이나 Window(10 이상으로 알고 있다.) 에서도 사용할 수 있다. 하지만 맥이나 윈도우에서 보다는 리눅스 환경에서 도커를 사용하게 될 것이다. 리눅스 환경의 PC에서 �� www.leafcats.com 2) docker를 이용해 jupyter noteboo..
1. slop: base pair 늘리기 bedtools slop -b 20 -i -g 설명: 의 모든 영역에 대해 앞, 뒤로 20 base pair 늘리는 명령어 입니다. # 링크: https://bedtools.readthedocs.io/en/latest/content/tools/slop.html * 파일은 전체 영역에 대한 bed 영역입니다. 일반적인 bam파일로부터 얻을 수 있습니다. 1) Genome 파일 만들기 ① 명령어 samtools view -H test.bam | grep LN | head -25 설명: bam 파일의 헤더부분(-H 옵션)중에서 길이 부분중에(grep LN) 25번째 line까지 확인 (미토콘드리아 염색체 길이 포함) ② 결과 사람에 대해 전체 영역에 대한 bed 파일을..
1. 책 소개 이 책은 아래 그림의 3 가지 세대별 항암제가 어떻게 개발 되었고, 어떻게 발전하게 되었는지를 서술한 책입니다. 항암제 개발에 있어 제일 기초가 되는 연구부터 시간순으로, 핵심 인물의 연구들을 중심으로 알려줍니다. 어떤 중요한 사실이 밝혀지기 까지, 그 근거가 되는 발견들을 시대순으로, 마치 하나의 흐름처럼 명확하게 설명합니다. 그래서 정말 재밌게 읽었습니다. 2. 필요 지식 책에서 항암제가 작용하는 원리를 세포생물학 수준에서 알려주기 때문에, 세포생물학 지식이 필요할 것으로 보입니다. 3. 요약 목차는 총 3부와 에필로그로 이루어져있습니다. 1부는 암이라는 질병부터, 2세대 최초 항암제인 글리벡이 만들어 지기까지의 과정을 다룹니다. 2부는 2세대 항암제중 유방암 표적 치료제인 허셉틴이 만..
1. MultiQC란? MultiQC는 bioinformatics 기본 분석 과정에 생성되는 log파일들을 자동으로 인식하고, 취합하여 보기 좋게 HTML 리포트를 생성해주는 툴입니다. 즉, bioinformatics의 여러 가지 툴들의 Output을 log파일로써 인식하여, 시각화를 해줍니다. MultiQC modules에서 어떤 툴들의 Output을 사용할 수 있는지 형태가 자세히 나옵니다. 기본적인 사용방법은 MultiQC document에 나와있으며, MultiQC github도 제공해 줍니다. 2. 설치 방법 conda를 이용한 설치방법과 pip를 이용한 설치방법이 있습니다. 1) conda 이용 a. multiqc 다운로드 conda install -c bioconda multiqc b. 만약..
1. 프로젝트 관리 도구란? 일을 할 때, 프로젝트 별로 나누어서 일을 체계적으로 기록할 수 있도록 도와주는 툴을 말합니다. 구체적으로 말하면, 아래와 같은 기능을 제공하는 툴을 말합니다. 1) 프로젝트 : 특정한 목표를 가지고 일을 하는 방향성을 설정합니다. 예를들어 제품이나 서비스 개발과 같이 프로젝트를 설정할 수 있습니다. 2) 일감 : 업무 내용을 기록하고, 관련된 첨부 파일을 업로드 할 수 있으며, 담당자를 지정하고, 진행 단계를 설정할 수 있습니다. 2) 시각화 : 일이 어떻게 진행되는지 시각화를 할 수 있습니다. 2. Redmine 이란? 레드마인(Redmine)은 오픈소스 프로그램으로 웹 기반의 프로젝트 관리 도구 입니다. 프로젝트 별로 일이 어떻게 진행되는지 화면 기반으로 볼 수 있도록 ..
1. 탄생 배경 1953년 왓슨과 크릭이 DNA 이중나선 구조를 밝히면서 분자생물학 혁명이 시작되었습니다. 이 혁명은 1960년대 중후반까지 지속되었고, 유전정보가 DNA로부터 RNA를 거쳐 단백질로 전달된다는 센트럴 도그마(Central Dogma) 패러다임이 정립되었습니다. 분자생물학의 기본 원리에 대한 큰 그림이 완성된 것입니다. 2. 정의 Central Dogma의 정의는 간략하게 말하면 'DNA에서 RNA로 전사되고, RNA에서 단백질로 번역 된다' 입니다. Central Dogma를 이루는 기본적인 원리는 3가지로 아래의 그림에 개략적으로 나와있습니다. 3가지는 DNA replication(DNA 자기복제), Transcription(전사), Translation(번역) 입니다. Central..
1. 필요한 이유서버 작업량이 많아지고, 오래 걸리는 작업을 동시에 여러개 진행하다 보면, 어떤 일이 언제 끝났는지, 결과가 어떤지 에러가 나지 않았는지 파악하는게 쉽지 않습니다. 메일을 통해 이 문제를 해결할 수 있습니다. 작업을 메일 제목으로, 결과 파일과 에러파일을 첨부파일로, 보고자하는 부분을 메일의 본문으로 하여, 작업이 종료되면 메일이 발신되도록 하면 위와 같은 문제에서 벗어날 수 있습니다. 리눅스 자체에도 메일 툴과 서버가 있지만, 확장성을 위해 파이썬 코드를 직접 짜서 사용합니다. 2. 과정네이버에서 SMTP 사용설정 -> python 코드 다운로드 -> 다운받은 python 코드 맨 윗줄에 python3.6 경로 설정1) 네이버에서 SMTP 서버 사용 2) python 코드12345678..
암(Cancer)과 생물정보학(BioInformatics)은 어떤 관계가 있을까? 바꿔 말하면, 생물정보학 기술을 이용하면 암의 치료에 어떤 영향을 줄 수 있을까? 에 대해 정리하겠습니다. 1. 암의 발생 원인 "체세포 안에서 유전정보를 담고 있는 지놈(genome)에 유전적 변형이 쌓여 암 유전자(oncogene), 암 억제 유전자(tumor suppressor gene) 등 핵심 유전자에서 돌연변이가 생기면 정상 세포가 암세포로 변한다. 현재 우리가 알고 있는, 암이 생겨나는 주요한 이유이다." 암 정복 연대기 中 즉, 암의 본질적인 원인은 내 몸을 이루고 있는 세포중에 돌연변이가 발생해 암세포가 되는 것입니다. 성인은 보통 약 100조개의 세포로 이루어져있습니다. 이 중 암세포가 생겼는지 안생겼는지..
이전 포스팅 [생물정보학] - 생물정보학(Bioinformatics) 회사에서 생물정보학자는 무슨 일을 하는지, 현재 제가 하는 일은 무엇인지 간단히 알아보았습니다. 이번엔, DNA 데이터가 도착하면 항상 하는 기본 분석과정에 대해 알아보겠습니다. 기본 분석 알고리즘의 목적은 DNA로부터 질병과 관련된 돌연변이를 찾는 것입니다. 아래의 그림이 DNA 데이터 분석의 전체상입니다. 1. NGS 분석 알고리즘 과정 알고리즘의 과정은 크게 3 단계로, DNA 데이터 Quality Control -> 매핑(정렬) -> 돌연변이 검출로 나뉩니다. 1) DNA 데이터 Quality Control NGS(차세대 염기서열 분석)는 자체로 기술적 한계가 있습니다. 그래서, 자체적으로 DNA 서열 Raw Data에 추정 오..
생물정보학 회사는 어떻게 굴러가고, 어떻게 이익을 창출하는지 정리하겠습니다. (모든 생물정보학 기반 회사가 같은 일을 하는 것은 아닙니다. 현재 우리나라의 대부분 생물정보학 회사의 업무 흐름을 작성하겠습니다.) 생물정보학 회사는 대부분 큰 틀에서 생명 정보를 맞춤형 의료에 적용하여, 실생활에 적용하기 위한 목표를 가집니다. * 맞춤형 의료란? 현재 의료는 가장 보편적인 치료법이나 의약품을 대상이 되는 증상의 사람에게 처방합니다. 즉, 치료법과 의약품에 맞춰 개개인이 치료됩니다. 반면에 맞춤형 의료는 개개인의 생명 정보를 바탕으로, 개인에 최적화된 치료법과 의약품을 찾아 처방합니다. 즉, 내 몸에 잘듣는 약을 찾아 처방합니다. 1. 생물정보학 회사의 업무 흐름 생물정보학 회사의 주요 부서는 크게 4가지로 ..
이 글을 쓰는 이유는 회사마다 다르겠지만, 생물정보학 분야에선 어떤일을 하고, 어떤 역량이 요구되는지 제 경험과 더불어 최대한 보편적으로 정리하기 위함입니다. 1. 생물정보학이란? 생물정보학(Bioinformatics)이란 넓은 의미에서 생명과 관련된 데이터를 컴퓨터를 통해 분석하는 학문입니다. 주로 DNA 서열 데이터로부터 유전자 관련 정보를 분석하거나, 아미노산 서열정보 분석부터 단백질의 상호작용 정보를 분석합니다. 생물정보학은 생물학, 컴퓨터 과학, 통계학 등이 융합된 학문입니다. 2. 생물정보학자는 무슨일을 할까? 위에서 설명한 것 처럼 DNA 수준에서 단백질 수준까지, 분자적인 수준에서 컴퓨터를 통하여 데이터를 분석하는 일을 주로 하게됩니다. 3. 현재 하는일은 무엇인가? 저는 맞춤형 의료 분야..