html_table_parser보다 쉬운 table태그 데이터프레임 만드는 방법은?!

table태그를 BeautifulSoup을 이용해서 파싱하는 것은 굉장히 귀찮고 불편합니다. 이 작업을 편리하게 하기 위해서 html_table_parser를 이용하는데요. 이 방법도 좋지만 이보다 더 편리하고 효과적인 방법이 있습니다. 오늘은 html_table_parser 보다 쉬운 table태그를 판다스 데이터프레임으로 만드는 방법에 대해서 알아보겠습니다.

html_table_pasrer가 불편한 이유

위에도 말했지만 별도로 설치해야 하고, 이 패키지를 설치하면 beautifulsoup 버전이 꼬이면서 새로 설치해야 하는 일이 발생합니다. 그래서 다른 방법을 찾아봤는데요.

판다스 패키지 read_html을 이용해보세요

read_html을 이용하면 table태그를 한 번에 데이터프레임으로 가져올 수 있습니다.

from urllib.request import urlopen
rlt = urlopen('https://stock.infoking.site/kospi200info/')

import pandas as pd
df = pd.read_html(rlt)

이 방법을 이용하면 url에 접속해서 html을 수집하고, 파싱하는 작업도 단축할 수 있는데요. 아래와 같이 바로 url을 넣어서 실행할 수 있습니다.

import pandas as pd

df = pd.read_html('https://stock.infoking.site/kospi200info/')

read_html은 페이지 안에 있는 모든 table태그를 데이터프레임으로 변환합니다. 변환한 데이터는 리스트 자료형으로 만들어지는데요. 그래서 필요한 데이터프레임을 가져와서 사용해야 합니다. 그래서 한 페이지에 table태그가 여러 개 있을 때 더 유용하게 사용할 수 있습니다.

이렇게 사용하면 더 좋습니다

데이터 프레임으로 가져오면 각 칼럼의 데이터타입이 자동으로 지정이 되는데요. 문자열로 인식되어야 됨에도, 정수형으로 인식돼 데이터가 날라가는 경우가 있습니다. 이럴 경우에는 칼럼의 데이터 타입을 미리 저장하는 것이 좋습니다. 아래와 같이 converters 입력 파라미터에 칼럼명과 원하는 데이터 타입을 딕셔너리로 지정하면 됩니다.

df = pd.read_html('https://stock.infoking.site/kospi200info/', converters={'no':str})

혹은 에러가 발생한다면 https에서 s를 빼고 하는 것도 도움이 됩니다.

오늘은 이렇게 html_table_parser 보다 쉬운 table태그를 판다스 데이터프레임으로 만드는 방법에 대해서 알아보았습니다. 웹사이트 표를 수집할 때 사용하면 굉장히 편리합니다.

저작자표시 비영리 변경금지

'파이썬 > 파이썬 기초' 카테고리의 다른 글

파이썬 XML 파싱 쉽게 하는 방법은?! (0)	2022.07.06
코랩 ipynb 파일 여는 2가지 방법은?! (2)	2022.07.04
파이썬 IDE 인기 순위와 장단점, 한국에서 선호도는?! (0)	2022.06.28
파이썬 GUI 추천, PySimpleGUI로 쉽게 빠르게 개발하는 방법은?! (0)	2022.06.20
파이썬 리스트 중복 출력 및 제거하는 방법은?! (0)	2022.06.10
파이썬 판다스 피클(pickle) 버전 다를 때 해결 방법은?! (0)	2022.05.28
파이썬 소수 구하기 만드는 방법은?! (3)	2022.05.24
파이썬 로그 파일 기록하는 2가지 방법은?! (0)	2022.05.11

html_table_parser보다 쉬운 table태그 데이터프레임 만드는 방법은?!

판다스 패키지 read_html을 이용해보세요

'파이썬 > 파이썬 기초' 카테고리의 다른 글

전체 카테고리

티스토리툴바