일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 패스트캠퍼스
- index
- Toss PO SESSION
- SQL부분일치
- POP
- SQL와일드카드
- Python
- 내일배움카드
- AI컨퍼런스
- MegaCon2022
- 데이터분석인강
- 스타트업
- 데이터컨퍼런스
- MegabyteSchool
- dropna
- K디지털그레딧
- MegaCon
- Aha Moment
- NotNull
- Append
- Carrying Capacity
- 데이터분석초격차패키지
- 결측값
- 파이썬
- 엑셀기초통계
- 바이트디그리
- 데이터분석초격차패치지
- SQL부분불일치
- K디지털크레딧
- 메가바이트스쿨
- Today
- Total
목록내일배움카드 (10)
da-ta ta-da

1. Push 발송 시간대 의사결정 - 가장 주문이 많이 일어나는 피크 시점을 분석해 Push 발송하기 order_by_hour = retail.set_index('InvoiceDate').groupby(lambda date: date.hour).count()['CustomerID'] # 가장 주문이 많은 시간대 확인 def half_an_hour(date): # 구매 시간대 30분 단위로 분석하기 minute = ":00" if date.minute > 30: minute = ":30" hour = str(date.hour) if date.hour < 10: # 깔끔한 표기를 위해 hour = '0' + hour return hour + minute order_by_hour_half = retail.s..

1. 데이터 파악 및 정제 - 데이터 속성 파악(타입 및 저장된 형태) → 데이터 정제 → 데이터 타입 변경 → 필요한 컬럼 생성 및 추가 → 정제 데이터 저장 - 데이터 속성 파악: retail.head(), retail.info(), retail.describe() 활용 - 데이터 정제: null 데이터 처리, Business 로직에 맞지 않는 데이터 처리 등 - 데이터 타입 변경: 메모리 효율화 및 올바른 데이터 타입 매칭 - 새로운 컬럼 추가: 분석에 자주 활용될 데이터는 수식으로 계산하여 컬럼 추가 - 정제 데이터 저장: reatil.to_csv retail.columns # 컬럼 종류 확인 retail.head() # 컬럼 및 로우 값 확인 retail.info() # 데이터 타입 및 로우 갯..

1. 마케팅 데이터 분석 - 광고 지표 종류: CTR(click/impression), CPM(cost/impression*1000), CPC(cost/click), CPA(cost/action) - matplotlib을 통해 광고 데이터 시각화 - 막대 그래프: df.plot.bar(), 가로 막대 그래프: df.plot.barh() - 히스토그램: df.plot.hist(bins = range(최소값, 최대값, 단위) - 차트 옵션: figsize[], fontsize, - 구성 요소 추가: plt.title("타이틀명"), plt.xlabel("x축 라벨"), plt.ylabel("y축 라벨"), plt.xticks(), plt.yticks() ⇒ x, y축 단위 설정 용례) plt.xticks([..

1. 공공데이터 분석 - 여러 파일을 하나의 데이터 프레임으로 불러오기 glob: 여러 파일을 불러와 List로 생성 concat: concatenation의 줄임, 데이터 프레임 결합. concat([데이터프레임, 데이터프레임) reset_index: 기존에 부여된 index를 0, 1, 2 ... n 으로 초기화, 파라미터 inplace = True를 통해 reset된 index를 유지해준다. - data masking 두 개 조건을 마스킹할 때는 () 괄호로 각각 묶고, & 연산자를 사용한다. str.contains: 문자열을 포함하는 method, value 값에 공통된 단어가 있고 완전히 일치하지는 않을 때 사용 - 데이터 시각화 유의미한 데이터 간 관계를 활용하여 그래프를 생성한다. 동일한 데..

1. Seaborn - 쉽게 많은 데이터를 시각화할 수 있는 라이브러리 - seaborn website에서 예제 참고 가능 import seaborn as sns 2. Plot 종류 - plot이란: 둘 이상의 변수간의 관계를 나타내는 그래프 (출처: 위키) 1) Histplot: 히스토그램 그래프 2) Displot: 변수 간 관계에 대해 여러 subplot 나누어 출력해주는 plot 3) Barplot: 막대 그래프 (≠히스토그램) 4) Countplot: 범주형 속성을 가지는 데이터들의 히스토그램, 각 항목의 개수 확인 5) Boxplot: 각 데이터의 종류별로 quantile(25%~75%)을 표시하는 plot, outlier 확인 가능. 6) Violinplot: 데이터에 대한 분포 자체를 보여..

1. Pandas - pandas(python data analysis)는 데이터 처리에 특화되어 있으며, 데이터 분석에서 필수적으로 사용된다. - numpy array를 베이스로 파이썬과 시너지를 내므로 고성능 데이터 처리에 유용하다. - 방대한 양의 데이터를 excel보다 훨씬 빠르고 간단하게 처리할 수 있다. - pandas의 data 단위: DataFrame import pandas as pd import numpy as np print(pd.__version__) # 판다스 버전 확인 코드 2. Serise, DataFrame - series = 테이블의 한 줄 (행/열 로 구성) - DataFrame = series의 모임 - date_rage 함수: date를 원하는 기간만큼 출력해준다. d..

1. numpy, numpy array - numpy(nemerical python)는 수치 계산을 효과적으로 하기 위해 사용된다. - python에 list와 비슷한 개념으로 numpy에서는 numpy array를 사용한다. - numpy array에 속한 모든 원소들은 동일한 data type을 갖는다. → data type 체킹 과정이 없어, 계산에 용이하며 빠름 - numpy array는 선언 시 크기로 지정되며, 크기를 변경하는 것은 불가하다. 2. numpy - import numpy as np 라고 선언한 뒤 사용이 가능하다. - np.array(데이터) data = [1, 2, 3, 4] # 파이썬 list를 numpy array로 변환하기 arr1 = np.array(data) - num..

1. Python Data Type : list, tuple, set, dic 1-1. 연속형 데이터 - 연속형 데이터: 하나의 변수에 여러개의 데이터를 갖고 있는 데이터, list, tuple, set이 연속형 데이터에 해당한다. - list = [ 1, 2, 3 ]' , tuple = ( 1, 2, 3 ), set = {1, 2, 3} 형태로 표현된다. - index(search)과 slicing(filtering) 기법이 연속형 데이터 연산에 많이 사용된다. - list 는 mutable(변경 가능한) 데이터로 append, sort, revers, pop 등의 함수로 추가적인 연산이 가능하다 - tuple 은 immutable(변경 불가한) 데이터로 추가 및 수정이 불가하다. → 불러온 데이터를 ..

1. 데이터 분석과 데이터 분석 도구 데이터 분석을 진행하기 전, 데이터 분석을 왜 하는지 또 핵심 가치가 무엇인지 정확히 인지할 필요가 있다. 목적 없는 분석은 숫자와 문자에 지날 뿐이므로 분석을 통해 도달하고자 하는 정확한 목적을 파악해야 하고, 데이터 분석을 통해 비즈니스에서 더 나은 방향을 제시할 수 있어야 한다. 데이터 분석은 기본적으로 데이터 수집 - 데이터 탐색 - 데이터 전처리 - 데이터 모델링 과정으로 진행되며, 데이터 분석가는 특히 데이터 탐색 과정을 원활히 잘 수행해야 한다. 데이터 분석에 사용되는 툴은 여러 개가 있지만 그 중 Python은 컴파일 과정(컴퓨터가 이해하는 언어로 변환하는 과정) 없이 명령어를 한 줄 단위로 해석할 수 있는 개발 언어이다. 생산성, 가독성, 확장성 면에..

1. 비즈니스 데이터 - 비즈니스 데이터란 비즈니스의 과정에서 생성되는 모든 데이터. - B2B 비즈니스에서는 생산 공정 데이터가 주요하게 분석되며, B2C 비즈니스에서는 소비자와 기업 간의 상호작용에서 발생하는 모든 데이터가 활용될 수 있다. - 비즈니스 데이터가 전산화되면서 활용할 수 있는 데이터의 종류와 양이 무궁무진해짐. 2. 업종별 비즈니스 데이터 - 제조업, 유통업, 이커머스업, 컨텐츠업 등 업종 별로 주요하게 다루는 데이터가 다름 - 예를 들어 쿠팡과 같은 온라인 이커머스업에서는 고객의 결제 정보, 구매까지의 행동 로그 등을 세분화해서 분석할 수 있다. 🌱 think flow: 넷플릭스 데이터 - 고객이 '최고예요' 를 누른 컨텐츠 데이터, 시청 중 중도 이탈한 컨텐츠 데이터 - 넷플릭스는 ..