pydataset 이란? 700개 이상의 테스트 데이터 library

반응형

 

Fancy Code

 

 

Contents

     

    pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리입니다.

    현재 기준 757개의 데이터셋이 존재합니다.

     

    python으로 dataframe을 다룰 땐 주로 주피터 노트북에서 pandas라는 라이브러리를 사용하게 됩니다.

     

    dataframe을 불러오기만 할 때는 pandas가 필요 없으니 실제 사용 예시들과 함께 pydataset에 대해 알아보겠습니다.

     

    깃허브 코드: https://github.com/netsus/pandas_practice/blob/master/pydataset_practice.ipynb

    1. 설치 방법

    !pip install pydataset

    주피터 노트북에서도 앞에 !를 사용함으로써 pip를 통해 툴 설치가 가능합니다. 

     

     

    설치

     

    2. 데이터 종류 보는 법

    1) 라이브러리 불러오기

    설치가 끝나면 아래 명령어를 통해 pydataset 라이브러리를 불러옵니다.

    from pydataset import data

    * 출력

    import

     

    2) data()

    불러온 라이브러리로부터 아래의 사진처럼 data()를 실행하면 dataset에 대한 정보가 담긴 dataframe이 kind에 저장됩니다.

    맨 아래 행(row) 개수를 보면 757개의 dataset이 있음을 알 수 있습니다.

    * 출력

    데이터 종류

     

    3. 데이터셋 불러오기

    dataset을 불러올 때는 아래의 명령어를 이용하여 불러올 수 있습니다.

    df = data('데이터셋 이름')

    또한 아래의 명령어를 이용해 dataset의 정보를 출력하여 볼 수 있습니다.

    df = data('데이터셋 이름', show_doc=True)

     

    4. 예시

    1) iris(붓꽃) 데이터셋

    # 데이터셋 설명보기
    data('iris', show_doc=True)
    
    # 데이터셋 불러오기
    iris = data('iris')

    dataframe을 다룰 때나, 머신러닝에 입문할 때 주로 쓰는 데이터셋인 iris 데이터셋을 설명과 함께 불러와 보겠습니다.

    * 출력

    데이터셋 설명

     

    iris를 출력해보면 다음과 같이 나옵니다.

    * 출력

    데이터셋 출력

     

    2) titanic 데이터셋

    titanic = data('titanic')
    titanic

    머신러닝 competition 사이트로 유명한 캐글(https://www.kaggle.com/)에 입문할 때 주로 Titanic 데이터셋으로 입문합니다.

    해당 데이터셋도 pydataset에 있으니 한번 설명과 함께 불러와 보겠습니다.

    * 출력

    타이타닉 데이터셋

    data('titanic', show_doc=True)

    titanic 데이터 셋의 설명을 보겠습니다.

    * 출력

    타이타닉 데이터셋 설명 보기

     

    앞으로 pydataset을 이용해서 데이터 프레임을 불러와서 pandas를 통해 데이터를 정제하고 시각화하는 다양한 방법에 대해 알아볼 것입니다.

     

    다음에 더 좋은 글로 찾아오겠습니다.
    읽어주셔서 감사합니다.

     

    반응형

    댓글

    Designed by JB FACTORY