Rucrazia's Blog

[Python] Pandas 데이터 전처리 코드 백업 본문

기술 - Data Science/분석

[Python] Pandas 데이터 전처리 코드 백업

DoyoungJ 2020. 2. 17. 18:42

# 한글로 적혀져 있는 곳에 해당 설명에 적합한 데이터를 넣으면 된다.

찾고 싶은 데이터가 어느 컬럼(column)에 있는지 알고 싶을 때.

df.columns[df.isin([찾고 싶은 값]).any()] # return 'list'

 

데이터 타입 변환

df = df.astype(데이터 타입) # return dataFrame

 

특정 데이터 타입만 가져오고(또는 빼고) 싶을 때

df = df.select_dtypes(include=[데이터 형]) #특정 데이터 형만 가져오고 싶을 때.  return dataFrame
df = df.select_dtypes(exclude=[데이터 형]) #특정 데이터 형만 빼고 가져오고 싶을 때. return dataFrame

 

데이터프레임 안에 있는 데이터 타입 종류별 갯수 알고 싶을 때 

df.get_dtype_counts()

 

데이터프레임에서 원하는 조건(condition)으로 데이터 뽑아내는 방법

df = df.loc[(df['변수']>=10)&(df['변수']<=60),] #변수안의 데이터가 10 이상, 60 이하인 row만 뽑아낸다. 

 

데이터프레임에서 특정 변수(feature or column) 제거하는 방법

df = df.drop(['변수A', '변수B'], axis = 1)

 

데이터프레임에서 특정 row 제거하는 방법

df = df.drop(['index a', 'index b'])

 

데이터프레임에서 특정 변수들만 선택해서 가져오는 방법

df = df[['변수A', '변수B']]

 

데이터프레임에서 특정 row 들만 선택해서 가져오는 방법

df = df[0:4] #0번째~3번째 변수 가져오기

 

데이터프레임에서 특정 변수에 속한 데이터의 종류 갯수 가져오기

df['변수'].value_counts() #갯수로 가져오기
df['변수'].value_counts(normalize=True) #비율로 가져오기

 

데이터프레임 row, column 사이즈 확인

df.shape #return (row 갯수, column 갯수)

 

데이터프레임 구성 정보 확인

df.info()

 

 

'기술 - Data Science > 분석' 카테고리의 다른 글

[자동차] 판매량 분석  (0) 2019.05.19