* 전체 코드 import pandas as pd from pydataset import data df = data('Titanic') ### 테스트 데이터셋 불러오기 ### 비교 연산 cond_adult = df.Age=='Adult' # == 연산 df[cond_adult] # True인 값들만 출력 cond_freq_under4 = df.Freq
* 전체 코드 import pandas as pd from pydataset import data titanic = data('titanic') # titanic 데이터셋 가져오기 df = titanic.sample(5,random_state=90) #랜덤 5개만 가져오기 ## iterrows 행 반복 for index, row in df.iterrows(): print(f"{index=}, {row.age=}, {row['sex']=}") ## itertuples 행 반복 for row in df.itertuples(): print(f"{row.age=}, {row.sex=}") ## df.index 사용 for idx in df.index: print(f"{df.loc[idx,'class']=}, {..
이번엔 JSON파일을 데이터 프레임으로 상호 변환하는 방법에 대해 알아보겠습니다. #전체 코드 import json, pandas as pd # test.json 내용: [{"name":"Jack","age":26},{"name":"Ace","age":87}] with open('test.json') as f: js = json.loads(f.read()) ## json 라이브러리 이용 df = pd.DataFrame(js) df = pd.read_json('test.json') ## pd.read_json 이용 ## orient df.to_json() # default : orient='columns' # Output : '{"name":{"0":"Jack","1":"Ace"},"age":{"0":26..
위와 같은 엑셀 파일이 있을 때, pandas로 쉽게 읽고, 처리하는 방법에 대해 알아보겠습니다. 두 사진 모두 Pandas에선 Multiindex 형태라고 지칭합니다. 좀 더 자세히 말하자면, 첫 번째 엑셀은 Multi column 형태입니다. 즉, 열(column)이 여러 계층(Multiple)으로 이루어져 있습니다. 두 번째 엑셀은 Multi index 형태입니다. 행과 열 앞부분인 인덱스(index) 부분이 여러 계층(Multiple)으로 이루어집니다. 위의 예시를 직접 pandas로 읽고 처리하며 자세히 알아보겠습니다. 읽기 첫 번째 엑셀(Multi Column) 데이터 프레임 역시 Multi Column을 갖는 것을 볼 수 있습니다. pd.read_excel함수로 엑셀을 읽을 수 있습니다. p..
데이터 프레임에서 특정 컬럼을 중심으로, 리스트에 포함되는 값에 대해, 리스트의 순서대로 정렬을 해야 하는 경우가 있습니다. 예를 들어, 나무에 대해 다양한 정보를 담고 있는 매우 큰 데이터 프레임이 있습니다. 여기서 저는 관심 있는 키(HEIGHT)가 405m, 450m, 490m, 525m 이렇게 4개가 있을때, 이 4가지 키순으로 데이터 프레임을 정렬시키고자 할 때 유용하게 사용되는 코드에 대해 알아보겠습니다. 전체 코드 interest_li = [405,450,490,525] # 관심 리스트 df_sort = df[df['관심 컬럼'].isin(interest_li)].copy() # 먼저, 데이터 프레임에서 관심값 추출 sorterIndex = dict(zip(interest_li, range(..
안녕하세요!! 데이터프레임 2개가 있을때 이 두 데이터프레임을 비교하는 2가지 방법에 대해 알아보겠습니다. (전제: 두 데이터프레임의 컬럼 이름이 모두 동일하고, 컬럼별로 datatype이 모두 동일해야 비교가 가능합니다.) 데이터프레임의 비교는 주로 서로 다른 과정을 통해 정제된 두 데이터가 서로 어떻게 차이나는지를 볼때 사용됩니다. 예를들어, 회계장부가 각 날짜별로 내 컴퓨터에서 관리가 되고, 회계장부 전체가 서버에서 관리가 되고 있을때, 내 컴퓨터에서 관리되는 회계장부를 취합해서 서버에서 관리되는 회계장부와 비교할때 쓸 수 있는 기술입니다. * 코드만 필요하신 분을 위한 df1과 df2를 전체 비교하는 코드입니다. 출력 : df1과 df2에 대해 차이나는 행을 출력 df = pd.concat([df..
안녕하세요 저번 포스팅에서 실무에 유용한 pandas의 4가지 기능에 대해 알아보았습니다. 엑셀로 부터 자유로워진다!! 유용한 pandas 기능 4 가지 안녕하세요 저번에 포스팅에서 pydataset라이브러리를 통해 dataset을 가져오는 것을 정리해보았습니다. 2020/07/23 - [python] - pydataset 이란? 700개 이상의 테스트 데이터 library pydataset 이란? 700개 이.. bio-info.tistory.com 이번엔 pandas에서 데이터 프레임의 열에 접근하여 정보를 추출하는 매우 유용한 기능에 대해 알아보겠습니다. 목차 1. 정규표현식이란? 2. str.extract() 3. str.contains() 1. 정규표현식이란? 정규 표현식이란 특정한 조건의 문자..
안녕하세요 저번에 포스팅에서 pydataset라이브러리를 통해 dataset을 가져오는 것을 정리해보았습니다. 2020/07/23 - [python] - pydataset 이란? 700개 이상의 테스트 데이터 library pydataset 이란? 700개 이상의 테스트 데이터 library pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리 입니다. 현재 기준 757개의 데이터셋이 존재합니다. python으로 dataframe을 다룰땐 주로 주피터 노트북에� bio-info.tistory.com 이번엔 iris dataset을 이용하여 유용하고 실무에서 많이 쓰는 pandas 기능 4가지를 통해 데이터 정제를 해보겠습니다. 4 가지 ..
Contents pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리입니다. 현재 기준 757개의 데이터셋이 존재합니다. python으로 dataframe을 다룰 땐 주로 주피터 노트북에서 pandas라는 라이브러리를 사용하게 됩니다. dataframe을 불러오기만 할 때는 pandas가 필요 없으니 실제 사용 예시들과 함께 pydataset에 대해 알아보겠습니다. 깃허브 코드: https://github.com/netsus/pandas_practice/blob/master/pydataset_practice.ipynb 1. 설치 방법 !pip install pydataset 주피터 노트북에서도 앞에 !를 사용함으로써 pip를 통해 툴 설..