웹크롤링을 위해서는 웹페이지를 구성하고 있는 언어를 알아야 한다. 직접 웹페이지를 만들 정도까지 필요하지는 않다. 그래도 구조를 이해할 필요는 있다. 웹페이지를 구성하고 있는 언어는 HTML, CSS, JAVASCRIPT이다. 제이쿼리, 앵귤러 등 자바스크립트로 제작된 라이브러리도 많이 사용되지만, 거기까지 알 필요는 없다.

오늘은 웹크롤링을 위한 HTML, CSS, JAVASCRIPT에 대해서 알아보도록 하겠다.

 

 

1. HTML

HTML은 태그 이름과 속성 내용으로 이루어져 있다. 웹크롤링을 위해 알아두면 좋은 태그를 정리해봤다.

태그명 내용
<h숫자> 제목
<p> 단락 구분
<br> 줄바꿈, 닫는 태그가 없는 것이 특징
<table>, <tr>, <td>, <th>
<a> 링크
<img> 이미지
<div> 화면 레이아웃 지정

 

 

위 태그의 내용을 쉽게 설명하고자 간단한 웹페이지를 만들어 보았다. 아래 첨부파일을 확인하기 바란다.

 

html예시.html
0.00MB

 

 

2. CSS

CSS는 웹페이지의 디자인을 담당하는 역할을 한다. 글꼴이나 색상, 레이아웃 등을 미리 정의하고, 태그에 선택자를 적용하여 사용한다.

 

선택자는 클래스 선택자와 아이디 선택자가 있는데, 이 2가지만 알면 웹크롤링을 하는데는 충분하다. 클래스 선택자는 태그 뒤에 class="클래스 선택자"의 형태로 작성하고, 아이디 선택자는 id="아이디 선택자"의 형태로 작성한다.

 

CSS의 내용을 설명하고자 간단한 웹페이지를 만들었다.

 

CSS예시.html
0.00MB

 

 

3. JAVASCRIPT

자바 스크립트를 이용한 웹페이지는 동적으로 변할 수 있다. 이 경우에 크롤링을 하면, 수집한 결과와 실제 웹페이지가 다를 수 있다. 크롤링은 동적으로 변하기 전에 웹페이지 내용을 수집했기 때문이다. 이 경우에는 셀레니움(selenium)을 이용해야 우리가 원하는 데이터를 수집할 수 있다.

 

자바스크립트도 간단한 샘플 파일을 만들어 보았다.

 

JAVASCRIPT예시.html
0.00MB

 

 

웹페이지 언어

 

 

오늘은 이렇게 웹크롤링을 위한 HTML, CSS, JAVASCRIPT에 대해서 알아보았다. 따로 위 언어를 배우는 것도 좋겠지만, 웹크롤링만 목적으로 한다면 그럴 필요까지는 없다고 생각한다. 작업을 하면서 필요한 내용을 그때그때 찾아보면서 익히는 것으로도 충분하다고 생각한다.

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기