일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- MegaCon2022
- Carrying Capacity
- NotNull
- SQL부분일치
- 메가바이트스쿨
- index
- SQL와일드카드
- 데이터분석초격차패치지
- 결측값
- 엑셀기초통계
- 내일배움카드
- 스타트업
- 데이터분석인강
- Toss PO SESSION
- 파이썬
- Aha Moment
- 데이터분석초격차패키지
- MegaCon
- 패스트캠퍼스
- POP
- 데이터컨퍼런스
- K디지털크레딧
- 바이트디그리
- SQL부분불일치
- K디지털그레딧
- Python
- AI컨퍼런스
- dropna
- MegabyteSchool
- Append
- Today
- Total
목록전체 글 (22)
da-ta ta-da

1. 공공데이터 분석 - 여러 파일을 하나의 데이터 프레임으로 불러오기 glob: 여러 파일을 불러와 List로 생성 concat: concatenation의 줄임, 데이터 프레임 결합. concat([데이터프레임, 데이터프레임) reset_index: 기존에 부여된 index를 0, 1, 2 ... n 으로 초기화, 파라미터 inplace = True를 통해 reset된 index를 유지해준다. - data masking 두 개 조건을 마스킹할 때는 () 괄호로 각각 묶고, & 연산자를 사용한다. str.contains: 문자열을 포함하는 method, value 값에 공통된 단어가 있고 완전히 일치하지는 않을 때 사용 - 데이터 시각화 유의미한 데이터 간 관계를 활용하여 그래프를 생성한다. 동일한 데..

1. Seaborn - 쉽게 많은 데이터를 시각화할 수 있는 라이브러리 - seaborn website에서 예제 참고 가능 import seaborn as sns 2. Plot 종류 - plot이란: 둘 이상의 변수간의 관계를 나타내는 그래프 (출처: 위키) 1) Histplot: 히스토그램 그래프 2) Displot: 변수 간 관계에 대해 여러 subplot 나누어 출력해주는 plot 3) Barplot: 막대 그래프 (≠히스토그램) 4) Countplot: 범주형 속성을 가지는 데이터들의 히스토그램, 각 항목의 개수 확인 5) Boxplot: 각 데이터의 종류별로 quantile(25%~75%)을 표시하는 plot, outlier 확인 가능. 6) Violinplot: 데이터에 대한 분포 자체를 보여..

1. Pandas - pandas(python data analysis)는 데이터 처리에 특화되어 있으며, 데이터 분석에서 필수적으로 사용된다. - numpy array를 베이스로 파이썬과 시너지를 내므로 고성능 데이터 처리에 유용하다. - 방대한 양의 데이터를 excel보다 훨씬 빠르고 간단하게 처리할 수 있다. - pandas의 data 단위: DataFrame import pandas as pd import numpy as np print(pd.__version__) # 판다스 버전 확인 코드 2. Serise, DataFrame - series = 테이블의 한 줄 (행/열 로 구성) - DataFrame = series의 모임 - date_rage 함수: date를 원하는 기간만큼 출력해준다. d..