웹크롤링으로 원하는 데이터를 추출하는 것도 유용하지만, 파일을 직접 다운로드하는 것도 유용합니다. 웹에 있는 파일을 다운로드하기 위해서는 urllib패키지의 urlretrieve 모듈을 이용하면 됩니다. 오늘은 파이썬 인터넷 파일 다운로드 받기, urlretrieve 사용법에 대해서 알아보겠습니다.

 


파이썬으로 인터넷 파일을 다운로드 받는 방법은 urllib패키지를 이용하면 됩니다. 이 패키지는 웹크롤링할 때 많이 사용하기 때문에 어색하지 않을 것입니다.

 

 

파일을 다운받기 위해서 2가지 정보가 필요합니다. 해당 파일이 있는 인터넷 주소와 어떤 경로에 파일을 저장하고 싶은지 정해야 합니다. 이 2가지를 입력 변수로 넣습니다.

 

 

파일 다운로드 urlretrieve함수를 이용합니다

예를 들어 test.com이라는 사이트에서 CSV 파일을 PC로 다운로드하고 싶다면 아래와 같이 입력합니다. 앞에 있는 주소의 데이터를 받아, 뒤에 있는 경로 './test.csv'으로 파일을 저장하는 코드입니다.

from urllib.request import urlretrieve
 
urlretrieve("https://test.com/uf@9953D8475D555F7009342E.csv", "./test.csv")

 

위 코드를 실행하면 아래와 같이 파일이 저장됩니다.

 

인터넷-파일-다운로드
파일-저장-결과

 

 

파일 저장 경로 알아보기

"."은 파이썬의 현재 작업 디렉토리를 간략히 표현한 것입니다. 파이썬 작업 디렉터리에 해당 파일 이름으로 저장하라는 것을 위와 같이 작성합니다. 파이썬 작업 디렉터리를 알고 싶다면, 아래와 같이 입력하면 됩니다. 현재 작업 디렉터리보다 한 단계 상위 디렉터리는 ".."을 이용합니다.

import os
 
os.getcwd()

 

 

작업 디렉터리를 바꾸고 싶다면 os.chdir("바꾸고 싶은 경로")를 입력합니다. 

맥북을 사용한다면 경로 구분자를 /로 이용해 보세요. 윈도는 경로 구분자를 \\(백스페이스 아래 원 표시 2개)로 입력해야 하는 것으로 알고 있습니다. 하지만, 윈도 10에서 ipython을 실행하고, /로 경로 구분을 해 보니 윈도에서도 잘 작동하네요.


오늘은 이렇게 파이선 인터넷 파일 다운로드 받는 방법에 대해서 알아보았습니다. urlretrieve 함수를 이용해서 쉽게 파일을 다운로드할 수 있었습니다. 파이썬 작업 경로는 다른 작업을 할 때도 알아야 하는 지식이니 이번 기획에 알아두는 것이 좋겠습니다.

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기