pydataset 이란? 700개 이상의 테스트 데이터 library

codingDNA
Data Science & Analysis / Pandas
2020. 7. 23.

Contents

1. 설치 방법
2. 데이터 종류 보는 법
- 1) 라이브러리 불러오기
- 2) data()
3. 데이터셋 불러오기
4. 예시
- 1) iris(붓꽃) 데이터셋
- 2) titanic 데이터셋

pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리입니다.

현재 기준 757개의 데이터셋이 존재합니다.

python으로 dataframe을 다룰 땐 주로 주피터 노트북에서 pandas라는 라이브러리를 사용하게 됩니다.

dataframe을 불러오기만 할 때는 pandas가 필요 없으니 실제 사용 예시들과 함께 pydataset에 대해 알아보겠습니다.

깃허브 코드: https://github.com/netsus/pandas_practice/blob/master/pydataset_practice.ipynb

1. 설치 방법

!pip install pydataset

주피터 노트북에서도 앞에 !를 사용함으로써 pip를 통해 툴 설치가 가능합니다.

2. 데이터 종류 보는 법

1) 라이브러리 불러오기

설치가 끝나면 아래 명령어를 통해 pydataset 라이브러리를 불러옵니다.

from pydataset import data

* 출력

2) data()

불러온 라이브러리로부터 아래의 사진처럼 data()를 실행하면 dataset에 대한 정보가 담긴 dataframe이 kind에 저장됩니다.

맨 아래 행(row) 개수를 보면 757개의 dataset이 있음을 알 수 있습니다.

* 출력

3. 데이터셋 불러오기

dataset을 불러올 때는 아래의 명령어를 이용하여 불러올 수 있습니다.

df = data('데이터셋 이름')

또한 아래의 명령어를 이용해 dataset의 정보를 출력하여 볼 수 있습니다.

df = data('데이터셋 이름', show_doc=True)

4. 예시

1) iris(붓꽃) 데이터셋

 # 데이터셋 설명보기
data('iris', show_doc=True)
 
# 데이터셋 불러오기
iris = data('iris')

dataframe을 다룰 때나, 머신러닝에 입문할 때 주로 쓰는 데이터셋인 iris 데이터셋을 설명과 함께 불러와 보겠습니다.

* 출력

iris를 출력해보면 다음과 같이 나옵니다.

* 출력

2) titanic 데이터셋

 titanic = data('titanic')
titanic

머신러닝 competition 사이트로 유명한 캐글(https://www.kaggle.com/)에 입문할 때 주로 Titanic 데이터셋으로 입문합니다.

해당 데이터셋도 pydataset에 있으니 한번 설명과 함께 불러와 보겠습니다.

* 출력

data('titanic', show_doc=True)

titanic 데이터 셋의 설명을 보겠습니다.

* 출력

앞으로 pydataset을 이용해서 데이터 프레임을 불러와서 pandas를 통해 데이터를 정제하고 시각화하는 다양한 방법에 대해 알아볼 것입니다.

다음에 더 좋은 글로 찾아오겠습니다.
읽어주셔서 감사합니다.

저작자표시

'Data Science & Analysis > Pandas' 카테고리의 다른 글

[Pandas] 다중 인덱스 엑셀 읽기 및 처리 (Multi Index, Multi Column) (0)	2020.09.15
[Pandas] 리스트(list) 순서로 데이터프레임 정렬 (0)	2020.09.14
[Pandas] Dataframe 비교 - 부분비교와 전체비교 (3)	2020.08.13
[Pandas] str.extract, str.contains 정규표현식 사용 (0)	2020.08.06
[Pandas] 유용한 pandas 기능 4 가지 (컬럼 순서 변경, insert, loc, Groupby) (2)	2020.07.30

Sidebar - Right

블로그 정보

codingDNA

파이썬을 좋아합니다. Contact : cwjcsk@naver.com

통계

전체 :
오늘 :
어제 :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Coding DNA