3주차 강의는 상관관계 분석과 시각화라는 두 가지 파트로 이루어짐

 

0-1. 이번에 많이 쓸 내용: 조건부 로직

df이름.열이름=='특정값' : 해당 열에 특정값이 있는지 여부를 True/False로 출력

df이름[df이름.열이름=='특정값'] : 특정값에 해당하는 행만 시리즈로 출력

*df이름[df이름.열이름<='특정값']

*df이름[[열이름1, 열이름2]]

*df이름[df이름.열이름>df이름.열이름.mean( )]

 

& : and

| : or. shift+\로 입력

~ : not. not의 대상이 되는 코드를 대체로 ( )로 감싸줌

 

임의인스턴스=자료시리즈[시리즈이름>기준수치] : 시리즈 내에서 기준 수치 초과하는 자료만 출력

자료 시리즈.idmax : 최댓값만 출력

자료 시리즈.agg(['mean', 'min', 'max', ... , '통계코드n']): 원하는 통계 데이터 나열한 것만큼 출력

 

0-2. Group by

df이름.groupby('기준 열 이름')['보고싶은 열'].mean( ) : 특정 자료를 기준 열 만을 뽑아내서 보고 싶은 열에 대해서만 출력하라. 뒤에 mean 자리는 min, max 등 다른 통계 명령이 들어가도 무관

ex) 대륙(기준 열) 별 맥주소비(보고 싶은 열)

 

1. 상관관계 분석

df이름.corr(method='pearson') : 모든 상관계수 데이터 출력됨

 

import matplotlib.pyplot as plt

import seaborn as sns

sns.heatmap : 히트맵 시각화. 상관계수 데이터를 3*3 그림으로 출력

sns.pairplot(df이름) : 산점도 그래프 출력

 

2-1. 파이 그래프 시각화

자료이름.fillna('특정값') : 자료의 빈 부분을 특정값으로 채워라

자료이름.value_counts( ) : 리스트를 항목별로 개수를 표현해라

df이름['열이름'].value_counts( ).index.tolist( ) : 앞에 개수를 연산한 내용에 index(행 이름)만을 뽑아내서 파이썬의 리스트 형태로 to list 하라

df이름['열이름'].value_counts( ).values.tolist( ) : 앞에 개수를 연산한 내용에 value만을 뽑아내서 파이썬의 리스트 형태로 to list 하라

 

plt.pie(pie_values, lables=라벨자료이름, autopct='%2f%%') : 소숫점 둘째 자리까지 연산

plt.title('제목') : 제목 입력

plt.show( )

 

2-2. Bar 차트 시각화

index리스트(=[1, 2, 3, ... , n]), value 리스트, x축 리스트 전부 정의

plt.bar(index, values, width=0.2, color='g') : 색깔은 'r'도 되고 'b'도 되고 마음대로

plt.xticks(index, x축 리스트) : index의 숫자에 x축 리스트 이름 하나씩 대응

plt.show( )

 

import numpy as np

np.arrange(n) : 위에서는 index리스트를 일일이 만들어줘야 하지만 이 코드를 쓰면 n개까지의 리스트를 알아서 만들어줌

*np.arrange(len[열이름.index.tolist( )) 도 가능. n의 대수를 모르는 상태에서 유리

 

2-3. 지도에 표시하기

import folium

seoul=folium.Map(location=[37.55, 126.98], zoom_start=12, tiles='지도형식이름') : 서울 지도 출력

*지도 종류: Stamen Terrain, Sramen Toner, 등

 

파일이름.pivot_table(index=['group'], aggfunc=['sum']) : 그룹별로 총합 수치 확인

from folium import plugins

지도이름.add_child(plugins.HeatMap(zip(위도파일, 경도파일, 승인파일, radius=18))) : zip은 뒤의 자료들을 엮겠다는 의미

*.astype('float') : 눈으로 보기에는 숫자지만 자료 내에 문자의 자료형으로 등록이 되어있어 출력에 오류가 생길 수 있음 이 코드로 자료형의 성격을 실수로 변경 가능

+ Recent posts