pydataset 이란? 700개 이상의 테스트 데이터 library

반응형

 

Fancy Code

 

 

Contents

 

pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리입니다.

현재 기준 757개의 데이터셋이 존재합니다.

 

python으로 dataframe을 다룰 땐 주로 주피터 노트북에서 pandas라는 라이브러리를 사용하게 됩니다.

 

dataframe을 불러오기만 할 때는 pandas가 필요 없으니 실제 사용 예시들과 함께 pydataset에 대해 알아보겠습니다.

 

깃허브 코드: https://github.com/netsus/pandas_practice/blob/master/pydataset_practice.ipynb

1. 설치 방법

!pip install pydataset

주피터 노트북에서도 앞에 !를 사용함으로써 pip를 통해 툴 설치가 가능합니다. 

 

 

설치

 

2. 데이터 종류 보는 법

1) 라이브러리 불러오기

설치가 끝나면 아래 명령어를 통해 pydataset 라이브러리를 불러옵니다.

from pydataset import data

* 출력

import

 

2) data()

불러온 라이브러리로부터 아래의 사진처럼 data()를 실행하면 dataset에 대한 정보가 담긴 dataframe이 kind에 저장됩니다.

맨 아래 행(row) 개수를 보면 757개의 dataset이 있음을 알 수 있습니다.

* 출력

데이터 종류

 

3. 데이터셋 불러오기

dataset을 불러올 때는 아래의 명령어를 이용하여 불러올 수 있습니다.

df = data('데이터셋 이름')

또한 아래의 명령어를 이용해 dataset의 정보를 출력하여 볼 수 있습니다.

df = data('데이터셋 이름', show_doc=True)

 

4. 예시

1) iris(붓꽃) 데이터셋

# 데이터셋 설명보기
data('iris', show_doc=True)
# 데이터셋 불러오기
iris = data('iris')

dataframe을 다룰 때나, 머신러닝에 입문할 때 주로 쓰는 데이터셋인 iris 데이터셋을 설명과 함께 불러와 보겠습니다.

* 출력

데이터셋 설명

 

iris를 출력해보면 다음과 같이 나옵니다.

* 출력

데이터셋 출력

 

2) titanic 데이터셋

titanic = data('titanic')
titanic

머신러닝 competition 사이트로 유명한 캐글(https://www.kaggle.com/)에 입문할 때 주로 Titanic 데이터셋으로 입문합니다.

해당 데이터셋도 pydataset에 있으니 한번 설명과 함께 불러와 보겠습니다.

* 출력

타이타닉 데이터셋

data('titanic', show_doc=True)

titanic 데이터 셋의 설명을 보겠습니다.

* 출력

타이타닉 데이터셋 설명 보기

 

앞으로 pydataset을 이용해서 데이터 프레임을 불러와서 pandas를 통해 데이터를 정제하고 시각화하는 다양한 방법에 대해 알아볼 것입니다.

 

다음에 더 좋은 글로 찾아오겠습니다.
읽어주셔서 감사합니다.

 

반응형

댓글

Designed by JB FACTORY