본문 바로가기

DEV/C#

크롤링으로 나라장터 검색-개요

반응형

 크롤링이란


크롤링(crawling) 혹은 스크레이핑(scraping)은 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위다. 크롤링하는 소프트웨어는 크롤러(crawler)라고 부른다.

관련 소프트웨어

Python이 이 분야의 선두주자로서, 컴퓨터 프로그래밍이 익숙하지 않은 비전공자들인 인문학이나 통계 분야의 종사자들이 쓰기 쉽도록 라이브러리들이 발달하면서 급격히 발전하고 있다. 대표적인 파이썬 라이브러리의 예로 beautifulsoup등이 있다.

그외에도 selenium이라는 라이브러리가 인기를 끌고있다. webdriverheadless 옵션을 함께 이용해서 웹을 자동화 시킬수도 있다.

Java에도 jsoup이라는 HTML 파싱 라이브러리가 존재한다. 파이썬의 beautifulsoup처럼 특정 조건을 가진 태그들을 선택하는 것이 가능하며, GET/POST 요청을 보내서 응답을 받아오는 것도 가능하다.

전문적인 크롤링 소프트웨어는 아니지만, 일반인들이 사용할 만한 툴로는 httrack wget-curl 정도가 있다. 인터넷이 느렸던 2000년대 초반에는 WebZip이라는 것이 인기를 모으기도 하였다.

참조 주소 : 크롤링 - 나무위키 (namu.wiki)


 개발환경

 

구분 버전 비고
운영체제 windows10  
개발도구 Visual Studio 2019  
.NetFramework 4.7.2  
크롬 드라이버 91.0.4472.19   
크롤링 도구 Selenium webdriver 3.141.0  
SMTP GMail사용 G메일 계정 필요
DB sqlite 실행환경 정보 저장

 

 수집 대상


신규 입찰 정보를 조회하기 위해 나라장터에 수시로 접속하여 조회를 합니다. 
사전규격과 입찰공고 정보를 조회하여 사용자가 매번 들어가지 않아도 확인할 수 있도록 프로그램을 구축해 보겠습니다. 

1. 나라장터 입찰정보 검색
URL : http://www.g2b.go.kr:8101/ep/tbid/tbidFwd.do

입찰정보 검색 화면

2. 나라장터 
URL : http://www.g2b.go.kr:8341/bs/beffatStndrdSearchSrch.do

사전규격 검색


다음장부터는 사전규격과 입찰공고 정보 조회 결과를 가져오는 기능을 만들어 보겠습니다.


관련글 보기

2. 2021.07.27 - [DEV/C#] - 크롤링으로 나라장터 검색-개발환경 구축

3. 2021.08.04 - [DEV/C#] - 크롤링으로 나라장터 검색-화면 구성 및 사전규격




반응형
댓글