2016. 4. 4. 10:48, Computer Engineering/Web Crawler
HTTrack
C언어 기반 오픈소스 웹 크롤러
https 지원
크롤링한 데이터는 파일시스템을 이용해 저장
자세한 설정 없이 많은 페이지를 긁어오는데 좋아보임
설치
git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure && make -j8 && make install DESTDIR=/
사용법
httrack "https://www.httrack.com/" -r2 -O "/tmp/httrack" -B -v
Arguments
1 Start URL
2 Hops / -rN
3 Output (Log)
4 Log File Path
5 Expert options (*.test.com / www.test.com/*)
6 Verbose (Log on screen)
httrack -help 참조
참고
https://www.httrack.com/html/fcguide.html
Comments, Trackbacks