안녕하세요 저번 포스팅에서는 DNA를 직접 NGS기기에 넣어 나오는 생(raw) 데이터 FASTQ에 대해서 알아보았습니다. FASTQ : DNA 생(raw) 데이터!! 완벽 정리 FASTQ 데이터는 NGS기계에서 추출한 DNA 정보를 '데이터'형태로 보여주는 첫 파일입니다. 즉, FASTQ는 DNA 정보를 담고있는 아무 정제없는 가장 날 것의 데이터 입니다. 1. FASTQ의 구성 FASTQ는 아래 4줄이 bio-info.tistory.com 이번엔 이 FASTQ 데이터의 다음 단계인 Bam/Sam 파일이 뭔지, 어떻게 쓰이는건지 알아보겠습니다. Bam 파일을 이해하려면 FASTQ 데이터를 알아야 합니다. FASTQ 데이터는 read라고 불리는 매우 짧은 서열(50~200bp)들로 구성된 파일입니다. 보..
안녕하세요!! 데이터프레임 2개가 있을때 이 두 데이터프레임을 비교하는 2가지 방법에 대해 알아보겠습니다. (전제: 두 데이터프레임의 컬럼 이름이 모두 동일하고, 컬럼별로 datatype이 모두 동일해야 비교가 가능합니다.) 데이터프레임의 비교는 주로 서로 다른 과정을 통해 정제된 두 데이터가 서로 어떻게 차이나는지를 볼때 사용됩니다. 예를들어, 회계장부가 각 날짜별로 내 컴퓨터에서 관리가 되고, 회계장부 전체가 서버에서 관리가 되고 있을때, 내 컴퓨터에서 관리되는 회계장부를 취합해서 서버에서 관리되는 회계장부와 비교할때 쓸 수 있는 기술입니다. * 코드만 필요하신 분을 위한 df1과 df2를 전체 비교하는 코드입니다. 출력 : df1과 df2에 대해 차이나는 행을 출력 df = pd.concat([df..
자료형은 프로그래밍 언어의 핵심적인 정체성이자 기본이고, 핵심 단위입니다. python이 다른 언어에 비해서 쉽고 생산성이 높은 핵심적인 이유가 무엇일까요? 바로 자료형의 범용성 때문입니다. python 자료형의 대표적인 장점이 3가지 있습니다. 1. 자료(Data)를 쉽게 원하는 형태로 만들 수 있다. 2. 서로 다른 자료형간의 변환이 원활하다. 3. 자료형이 객체(Object)이기 때문에 메소드를 이용하여 한줄에 다양한 일들을 처리할 수 있다. 그렇다면, python의 기본적인 7가지 자료형을 알아보겠습니다. 자료형을 확인하는 함수는 type() 입니다. 1. 숫자형 1) int (정수) 정수형(integer) 자료형은 양의 정수, 음의 정수, 그리고 0을 대입할 수 있습니다. 2) float (실수..
안녕하세요!! 2020년 4월 27일부로 변경된 티스토리 블로그 사이트맵 등록을 알아보겠습니다. 1. 티스토리 사이트맵 확인 1) 블로그 관리홈에서 블로그 클릭 블로그 관리홈에서 왼쪽 하단에 '관리'에서 '블로그'를 클릭합니다. 2) 사이트맵 주소 확인 스크롤을 내려보시면 주소 설정 부분에 사이트맵 주소가 있습니다. 보통 블로그주소/sitemap.xml 형태입니다. 2. 구글 서치콘솔에 사이트맵 및 RSS 등록하기 아래 링크를 클릭하시면 Google Search Console로 이동합니다. Google Search Console Search Console 도구와 보고서를 사용하면 사이트의 검색 트래픽 및 실적을 측정하고, 문제를 해결하며, Google 검색결과에서 사이트가 돋보이게 할 수 있습니다. se..
안녕하세요 저번 포스팅에서 실무에 유용한 pandas의 4가지 기능에 대해 알아보았습니다. 엑셀로 부터 자유로워진다!! 유용한 pandas 기능 4 가지 안녕하세요 저번에 포스팅에서 pydataset라이브러리를 통해 dataset을 가져오는 것을 정리해보았습니다. 2020/07/23 - [python] - pydataset 이란? 700개 이상의 테스트 데이터 library pydataset 이란? 700개 이.. bio-info.tistory.com 이번엔 pandas에서 데이터 프레임의 열에 접근하여 정보를 추출하는 매우 유용한 기능에 대해 알아보겠습니다. 목차 1. 정규표현식이란? 2. str.extract() 3. str.contains() 1. 정규표현식이란? 정규 표현식이란 특정한 조건의 문자..
FASTQ 데이터는 NGS기계에서 추출한 DNA 정보를 '데이터'형태로 보여주는 첫 파일입니다. 즉, FASTQ는 DNA 정보를 담고있는 아무 정제없는 가장 날 것의 데이터 입니다. 1. FASTQ의 구성 FASTQ는 아래 4줄이 반복되는 형태를 갖습니다. @SEQ_ID Sequence + Quality scores 1) 첫 번째 줄 (@SEQ_ID) : 시퀀스 고유 ID로 NGS기기ID와 Cell Line 번호, index 서열 등의 기초정보를 담고 있습니다. 2) 두 번째 줄 (Sequence) : 시퀀싱된 1개 Read의 서열정보를 담고있습니다. (AGCT의 문자로만 이루어 집니다.) 3) 세 번째 줄 (+) : 여기는 항상 +가 있으며 그냥 구분자 입니다. 4) 네 번째 줄 (Quality sco..
안녕하세요!! 주피터 노트북을 통해 코딩작업을 하다보면 재밌을 때도 있지만, 너무 심심할때가 있습니다. 그럴때 테마를 예쁘게 꾸며주면 기분이 상당히 좋아집니다. 이번에 다룰 내용은 테마 설치하는 법, 테마 종류를 보고, 제가 쓰는 예쁜 테마를 보여드리도록 하겠습니다. 1. 테마 설치하는 법 테마 설치하는 방법은 주피터 노트북에서 아래와 같은 명령어를 치면 됩니다. !pip install jupyterthemes 2. 테마 종류 주피터 노트북의 테마는 총 9가지 입니다. 생각 보다 별로 없죠?? 하지만 하나씩 살펴보면 꽤 많은 듯 보이기도 합니다. (이런 테마는 왜 만들었을까 싶은 테마도 존재합니다.) 테마 종류를 보는 방법은 주피터 노트북에서 아래와 같은 명령어를 치면 볼 수 있습니다. !jt -l jt..
안녕하세요 저번에 포스팅에서 pydataset라이브러리를 통해 dataset을 가져오는 것을 정리해보았습니다. 2020/07/23 - [python] - pydataset 이란? 700개 이상의 테스트 데이터 library pydataset 이란? 700개 이상의 테스트 데이터 library pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리 입니다. 현재 기준 757개의 데이터셋이 존재합니다. python으로 dataframe을 다룰땐 주로 주피터 노트북에� bio-info.tistory.com 이번엔 iris dataset을 이용하여 유용하고 실무에서 많이 쓰는 pandas 기능 4가지를 통해 데이터 정제를 해보겠습니다. 4 가지 ..
이전 포스팅 2020/06/23 - [생물정보학] - NGS 기반 DNA data 기본 분석 NGS 기반 DNA data 기본 분석 이전 포스팅 2020/06/18 - [생물정보학] - 생물정보학(Bioinformatics) 회사에서 생물정보학자는 무슨일을 하는지, 현재 제가 하는일은 무엇인지 간단히 알아보았습니다. 이번엔, DNA 데이터가 도착하면 bio-info.tistory.com 에서 NGS 시퀀싱 결과 DNA 기본 분석 알고리즘에 대해 알아보았습니다. 이번 포스팅에선 타겟 선별(Target enrishment)과 타겟의 범위에 따른 DNA 시퀀싱 종류 3가지를 알아보겠습니다. Contents 1. 타켓 선별(Target enrishment) 타켓 선별은 앰플리콘 방식과 캡쳐 방식으로 나뉩니다. ..
Contents 1. Nbextensions 이란? 주피터 노트북 확장 프로그램으로, 실행 시간, 목차, 변수 탐색기 등 기능 사용 가능. 2. Nbextensions 설치 및 사용방법 1) nbextensions 설치 pip install jupyter_nbextensions_configurator jupyter_contrib_nbextensions 주피터 노트북에서 설치할 때는 아래와 같이 앞에 !를 붙여주시면 됩니다. * 실행 화면 2) Nbextensions를 주피터 노트북과 연결 jupyter contrib nbextension install --user jupyter nbextensions_configurator enable --user 주피터 노트북에서 설치할 때는 아래와 같이 앞에 !를 붙..
1. bedtools merge Input으로 들어온 bed 파일에 대해, 서로 겹치는 영역을 하나로 합쳐주는 기능입니다. 2. 주요 옵션 1) c 옵션: 컬럼 번호를 지정하여, -o 옵션을 수행합니다. 2) o 옵션: Default는 sum 이며 다양한 옵션이 존재합니다. 3. 예시 bedtools merge -i test.bed -c 4 -o collapse > test2.bed * 옵션 설명 -i test.bed : input으로 test.bed를 받는 옵션입니다. -c 4 : test.bed 파일에서 4번째 컬럼(아래 그림에서 Feature 컬럼)에 대해 -o 옵션을 적용합니다. -o collapse : 4번째 컬럼(Feature)에 대해 서로 영역이 합쳐지면, Feature 컬럼의 값이 콤마(,..
Contents pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리입니다. 현재 기준 757개의 데이터셋이 존재합니다. python으로 dataframe을 다룰 땐 주로 주피터 노트북에서 pandas라는 라이브러리를 사용하게 됩니다. dataframe을 불러오기만 할 때는 pandas가 필요 없으니 실제 사용 예시들과 함께 pydataset에 대해 알아보겠습니다. 깃허브 코드: https://github.com/netsus/pandas_practice/blob/master/pydataset_practice.ipynb 1. 설치 방법 !pip install pydataset 주피터 노트북에서도 앞에 !를 사용함으로써 pip를 통해 툴 설..