da-ta ta-da

데이터 분석 인강 3주차 : Pandas 본문

Data Analyst

데이터 분석 인강 3주차 : Pandas

jess1015 2022. 5. 8. 16:03

1. Pandas

- pandas(python data analysis)는 데이터 처리에 특화되어 있으며, 데이터 분석에서 필수적으로 사용된다.

- numpy array를 베이스로 파이썬과 시너지를 내므로 고성능 데이터 처리에 유용하다.

- 방대한 양의 데이터를 excel보다 훨씬 빠르고 간단하게 처리할 수 있다.

- pandas의 data 단위: DataFrame

import pandas as pd 
import numpy as np
print(pd.__version__) # 판다스 버전 확인 코드

 

2. Serise, DataFrame

- series = 테이블의 한 줄 (행/열 로 구성)

- DataFrame = series의 모임

- date_rage 함수: date를 원하는 기간만큼 출력해준다. 

date = pd.date_range('20220101', period = (6)) # 20220101 부터 20220106까지 index로 출력
s = pd.series([1, 3, 5, 7, 9]) # series 생성
df = pd.DataFrame(np.random.randn(6, 4), index = dates, columns = ['A', 'B', 'C', 'D']) # index가 dates고, column이 A, B, C, D,인 6 x 4 dataframe 생성

3. DataFrame Method

- df.head(), df.tail(), df.index, df.values, df.info(). df.describe(), df.sort_values 등이 있다.

4. indexing

- DataFrame은 기본적으로 dictionary 타입, ∴ Column이름을 활용해 Indexing이 가능하다.

- DataFrame Indexing에는 loc(location), iloc(integer location) method를 사용한다.

df.loc[name] # 해당 dataframe의 label 값으로 접근
df.iloc[number] # 해당 dataframd의 index 값으로 접근
df.loc['2022-01-03'] # 2022-01-03 raw 출력
df.loc[:, "B"] # B column 출력
df.iloc[2] # 세번째 row 출력
df.iloc[:, 2] # 세번째 column 출력

5. masking

- [출력할 dataframe 전체][masking할 dataframe의 조건] 형태

- isin method: df.isin(value) 데이터 프레임의 요소가 각 value에 해당하는지의 여부를 T/F(bool 형식)으로 반환

df['A'][df['A']>0] # df['A']가 데이터 프레임, df['A']>0이 마스킹 조건
Comments