웹크롤링을 위해서는 웹페이지를 구성하고 있는 언어를 알아야 한다. 직접 웹페이지를 만들 정도까지 필요하지는 않다. 그래도 구조를 이해할 필요는 있다. 웹페이지를 구성하고 있는 언어는 HTML, CSS, JAVASCRIPT이다. 제이쿼리, 앵귤러 등 자바스크립트로 제작된 라이브러리도 많이 사용되지만, 거기까지 알 필요는 없다.
오늘은 웹크롤링을 위한 HTML, CSS, JAVASCRIPT에 대해서 알아보도록 하겠다.
1. HTML
HTML은 태그 이름과 속성 내용으로 이루어져 있다. 웹크롤링을 위해 알아두면 좋은 태그를 정리해봤다.
태그명 | 내용 |
<h숫자> | 제목 |
<p> | 단락 구분 |
<br> | 줄바꿈, 닫는 태그가 없는 것이 특징 |
<table>, <tr>, <td>, <th> | 표 |
<a> | 링크 |
<img> | 이미지 |
<div> | 화면 레이아웃 지정 |
위 태그의 내용을 쉽게 설명하고자 간단한 웹페이지를 만들어 보았다. 아래 첨부파일을 확인하기 바란다.
2. CSS
CSS는 웹페이지의 디자인을 담당하는 역할을 한다. 글꼴이나 색상, 레이아웃 등을 미리 정의하고, 태그에 선택자를 적용하여 사용한다.
선택자는 클래스 선택자와 아이디 선택자가 있는데, 이 2가지만 알면 웹크롤링을 하는데는 충분하다. 클래스 선택자는 태그 뒤에 class="클래스 선택자"의 형태로 작성하고, 아이디 선택자는 id="아이디 선택자"의 형태로 작성한다.
CSS의 내용을 설명하고자 간단한 웹페이지를 만들었다.
3. JAVASCRIPT
자바 스크립트를 이용한 웹페이지는 동적으로 변할 수 있다. 이 경우에 크롤링을 하면, 수집한 결과와 실제 웹페이지가 다를 수 있다. 크롤링은 동적으로 변하기 전에 웹페이지 내용을 수집했기 때문이다. 이 경우에는 셀레니움(selenium)을 이용해야 우리가 원하는 데이터를 수집할 수 있다.
자바스크립트도 간단한 샘플 파일을 만들어 보았다.
오늘은 이렇게 웹크롤링을 위한 HTML, CSS, JAVASCRIPT에 대해서 알아보았다. 따로 위 언어를 배우는 것도 좋겠지만, 웹크롤링만 목적으로 한다면 그럴 필요까지는 없다고 생각한다. 작업을 하면서 필요한 내용을 그때그때 찾아보면서 익히는 것으로도 충분하다고 생각한다.
'파이썬 > 파이썬 기초' 카테고리의 다른 글
파이썬 실행파일 만드는 2가지 방법은?! (0) | 2022.03.07 |
---|---|
맥에서 배치파일(bat) 만드는 방법은?! 파이썬 실행파일 만들기! (2) | 2022.03.04 |
XPATH란? 셀레니움(Sellenium) XPath로 쉽게 요소 선택하기! (0) | 2022.02.21 |
파이썬 셀레니움 사용법, 특정 요소를 선택하는 방법은?! (0) | 2022.02.20 |
파이썬 가상환경 쓰는 이유와 사용하는 방법은?! (0) | 2022.02.14 |
파이썬 반복문(for문, while문) 사용법 - zip, enumerate 함수까지! (0) | 2022.02.13 |
파이썬 반복문, for문 문법과 활용 팁 알아보기 (0) | 2022.02.12 |
파이썬 for문 진행바 패키지, tqdm 설치 및 사용법 (0) | 2022.02.11 |