[Web Crawler] HTTrack

HTTrack

 

C언어 기반 오픈소스 웹 크롤러

https 지원

크롤링한 데이터는 파일시스템을 이용해 저장

자세한 설정 없이 많은 페이지를 긁어오는데 좋아보임

 


 

 

설치

 

git clone https://github.com/xroche/httrack.git --recurse

 

cd httrack

 

./configure && make -j8 && make install DESTDIR=/

 


 

 

사용법

 

 httrack "https://www.httrack.com/" -r2 -O "/tmp/httrack" -B -v

 

 Arguments


1    Start URL
2    Hops / -rN
3    Output (Log)
4    Log File Path
5    Expert options (*.test.com / www.test.com/*)
6    Verbose (Log on screen)

 

httrack -help 참조

 


 

 

참고

 

https://www.httrack.com/html/fcguide.html

https://www.httrack.com/

 

  Comments,     Trackbacks