데이터 프레임에서 특정 컬럼을 중심으로, 리스트에 포함되는 값에 대해, 리스트의 순서대로 정렬을 해야 하는 경우가 있습니다. 예를 들어, 나무에 대해 다양한 정보를 담고 있는 매우 큰 데이터 프레임이 있습니다. 여기서 저는 관심 있는 키(HEIGHT)가 405m, 450m, 490m, 525m 이렇게 4개가 있을때, 이 4가지 키순으로 데이터 프레임을 정렬시키고자 할 때 유용하게 사용되는 코드에 대해 알아보겠습니다. 전체 코드 interest_li = [405,450,490,525] # 관심 리스트 df_sort = df[df['관심 컬럼'].isin(interest_li)].copy() # 먼저, 데이터 프레임에서 관심값 추출 sorterIndex = dict(zip(interest_li, range(..
안녕하세요!! 데이터프레임 2개가 있을때 이 두 데이터프레임을 비교하는 2가지 방법에 대해 알아보겠습니다. (전제: 두 데이터프레임의 컬럼 이름이 모두 동일하고, 컬럼별로 datatype이 모두 동일해야 비교가 가능합니다.) 데이터프레임의 비교는 주로 서로 다른 과정을 통해 정제된 두 데이터가 서로 어떻게 차이나는지를 볼때 사용됩니다. 예를들어, 회계장부가 각 날짜별로 내 컴퓨터에서 관리가 되고, 회계장부 전체가 서버에서 관리가 되고 있을때, 내 컴퓨터에서 관리되는 회계장부를 취합해서 서버에서 관리되는 회계장부와 비교할때 쓸 수 있는 기술입니다. * 코드만 필요하신 분을 위한 df1과 df2를 전체 비교하는 코드입니다. 출력 : df1과 df2에 대해 차이나는 행을 출력 df = pd.concat([df..
안녕하세요 저번 포스팅에서 실무에 유용한 pandas의 4가지 기능에 대해 알아보았습니다. 엑셀로 부터 자유로워진다!! 유용한 pandas 기능 4 가지 안녕하세요 저번에 포스팅에서 pydataset라이브러리를 통해 dataset을 가져오는 것을 정리해보았습니다. 2020/07/23 - [python] - pydataset 이란? 700개 이상의 테스트 데이터 library pydataset 이란? 700개 이.. bio-info.tistory.com 이번엔 pandas에서 데이터 프레임의 열에 접근하여 정보를 추출하는 매우 유용한 기능에 대해 알아보겠습니다. 목차 1. 정규표현식이란? 2. str.extract() 3. str.contains() 1. 정규표현식이란? 정규 표현식이란 특정한 조건의 문자..
안녕하세요 저번에 포스팅에서 pydataset라이브러리를 통해 dataset을 가져오는 것을 정리해보았습니다. 2020/07/23 - [python] - pydataset 이란? 700개 이상의 테스트 데이터 library pydataset 이란? 700개 이상의 테스트 데이터 library pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리 입니다. 현재 기준 757개의 데이터셋이 존재합니다. python으로 dataframe을 다룰땐 주로 주피터 노트북에� bio-info.tistory.com 이번엔 iris dataset을 이용하여 유용하고 실무에서 많이 쓰는 pandas 기능 4가지를 통해 데이터 정제를 해보겠습니다. 4 가지 ..
Contents pydataset은 python에서 빠르게 다양한 종류의 dataset에 접근해서 dataframe을 불러오는 라이브러리입니다. 현재 기준 757개의 데이터셋이 존재합니다. python으로 dataframe을 다룰 땐 주로 주피터 노트북에서 pandas라는 라이브러리를 사용하게 됩니다. dataframe을 불러오기만 할 때는 pandas가 필요 없으니 실제 사용 예시들과 함께 pydataset에 대해 알아보겠습니다. 깃허브 코드: https://github.com/netsus/pandas_practice/blob/master/pydataset_practice.ipynb 1. 설치 방법 !pip install pydataset 주피터 노트북에서도 앞에 !를 사용함으로써 pip를 통해 툴 설..