파이썬 판다스는 데이터 분석할 때 빠지지 않고 사용되는 패키지입니다. 판다스를 이용하면, 데이터 프레임이라는 자료형을 사용할 수 있습니다. 데이터 프레임은 테이블 형태의 자료구조로, 테이블 형태는 엑셀처럼 행과 열로 이루어진 데이터를 말합니다. 오늘은 파이썬 판다스 패키지를 설치하고, 기초 사용법에 대해서 알아보겠습니다.
1. 판다스 설치하기
판다스 패키지는 터미널이나 명령 프롬프트에서 pip install pandas를 실행하면 설치할 수 있습니다. 혹은 아나콘다 배포판을 이용하면 별도의 설치 없이 이용할 수도 있습니다. 아나콘다는 데이터 분석과 관련된 패키지를 모아서 파이썬 설치 버전으로 만든 것으로, 개별로 패키지를 설치하는 번거로움이 없습니다.
2. 판다스 기초 사용법
판다스를 하기 위해서는 해당 패키지를 불러와야 합니다. 보통 아래와 같이 패키지를 불러오고 약어로 pd를 많이 사용합니다.
import pandas as pd
여기서 데이터 프레임을 직접 만들 수도 있고, 기존에 있는 테이블 형태의 데이터를 불러올 수도 있습니다. 엑셀, CSV 같은 텍스트 파일뿐만 아니라 MySQL, 마리아 DB 같은 DB에서도 데이터를 불러올 수 있습니다.
직접 만드는 방법은 여러가가 있지만, 딕셔너리 자료형을 이용하는 것이 가장 편리합니다. 키값이 칼럼명이 되고, 값이 데이터가 됩니다.
df=pd.DataFrame({"col":[1,2,3,4]})
print(df)
[Out]:
col
0 1
1 2
2 3
3 4
직접 만든 데이터로는 재미가 없어, 아파트 매매 실거래가 데이터를 불러와 봤습니다. 부동산 데이터도 파이썬 패키지를 이용해서 쉽게 가져올 수 있습니다.
이제 테이블 데이터를 가지고 할 수 있는 편집과 값 요약, 행과 열로 데이터를 나누고 합치는 등의 모든 작업을 할 수 있습니다. 판다스를 사용하는 것은 파이썬을 사용하는 것과는 조금 다릅니다. 판다스 패키지의 함수를 잘 아는 것이 중요합니다. 아니면 함수 하나로 끝날 일을 몇 줄의 코드로 고생해서 만들 수도 있기 때문이죠.
데이터를 불러오면 가장 많이 하는 것의 앞의 데이터만 출력하는 head함수를 호출하는 것입니다.
df.head()
info함수를 이용하면 데이터 타입과 NULL(공백)값의 여부를 알 수 있어 편리합니다.
df.info()
판다스 데이터 프레임을 이용하는 더 자세한 방법은 필자의 책에도 있으니, 관심 있다면 참고하시기 바랍니다.
판다스 데이터 프레임의 데이터는 다른 패키지를 이용해 쉽게 시각화하고 분석할 수 있습니다. matplotlib이 가장 기본이 되는 패키지이지만, 필자는 seaborn이 분석을 하기에 더 적합한 문법을 가지고 있다고 생각합니다. 그 외에도 다양한 시각화 패키지가 있습니다.
파이썬 판다스 설치하고, 기초 사용법에 대해서 알아보았습니다. 판다스는 파이썬 데이터 분석에서 많이 사용되는 중요한 패키지입니다. 자신에게 잘 맞는 방법으로 해당 패키지의 사용법을 익혀두시기 바랍니다.
'데이터 > 데이터 분석' 카테고리의 다른 글
파이썬 회귀선 seaborn 패키지로 쉽게 그리는 방법은?! (0) | 2022.01.21 |
---|---|
matplotlib 설치 및 사용법 알아보기 (0) | 2022.01.20 |
파이썬 판다스 Series 자료형 내용과 사용법 알아보기! (0) | 2022.01.20 |
미래인구수 데이터 수집 및 시각화하는 방법은?! (0) | 2022.01.19 |
데이터 시각화, Plotly 차트 쉽게 그리는 방법 -cufflinks 이용하기 (0) | 2022.01.19 |
파이썬 워드클라우드, 이쁘게 그리는 방법은?! (0) | 2022.01.19 |
파이썬 KoNLPy, 형태소 분석 및 워드클라우드 그리는 법은?! (2) | 2022.01.18 |
추천 알고리즘 탐색, Deep FM 알아보기 (0) | 2022.01.18 |