da-ta ta-da

데이터 분석 인강 3주차 : 데이터 시각화 분석 실전 본문

Data Analyst

데이터 분석 인강 3주차 : 데이터 시각화 분석 실전

jess1015 2022. 5. 8. 23:05

1. 공공데이터 분석

- 여러 파일을 하나의 데이터 프레임으로 불러오기

   glob: 여러 파일을 불러와 List로 생성

   concat: concatenation의 줄임, 데이터 프레임 결합. concat([데이터프레임, 데이터프레임)

   reset_index: 기존에 부여된 index를 0, 1, 2 ... n 으로 초기화, 파라미터 inplace = True를 통해 reset된 index를 유지해준다. 

- data masking

   두 개 조건을 마스킹할 때는 () 괄호로 각각 묶고, & 연산자를 사용한다.

   str.contains: 문자열을 포함하는 method, value 값에 공통된 단어가 있고 완전히 일치하지는 않을 때 사용

- 데이터 시각화

   유의미한 데이터 간 관계를 활용하여 그래프를 생성한다.

   동일한 데이터도로 색상, 사이즈, 폰트 크기 등 커스텀하여 다르게 시각화할 수 있다. 

2. Kaggle Survey EDA

- 데이터 불러오기 전 numby, pandas, matplot, seaborn 라이브러리 불러오기

- 데이터 전처리: 관계 파악 및 시각화에 사용할 데이터 column을 선택하고 불러오기

- null이 아닌 row 불러오기

   isnull().any(): row value 중 하나라도 null 값을 가지고 있으면 출력

   dropna(): null 값이 있는 데이터 제거

Comments