Spring Boot

Spring Boot에서 jsoup으로 웹 크롤링하기

최-코드 2024. 3. 14. 00:28

jsoup의 가장 핵심적인 클래스 :

1) Document - url을 연결해서 얻게 되는 HTML 문서

2) Elements - Element들이 모인 자료형

3) Element - Document의 요소

 

웹 크롤링을 하려면 먼저 HTML 문서를 가져와야 한다.

Document document = Jsoup.connect("url").get()와 같이 타이핑 해주면 된다.

 

url에 ?에 처리하여 얻고자 하는 HTML 문서를 얻을 수 있다.

 

Document 클래스의 select() 함수 속 파라미터에 CSS 선택자 또는 태그의 이름을 넣어 Element의 집합, Elements를 얻어올 수 있다. 이를 향상된 for문을 이용해 Element 클래스의 객체에 넣을 수 있다. 이후 Element 클래스의 text() 함수를 이용해 각각의 요소를 텍스트화할 수 있다.

ex) element.select("src[class='hi']") or element.select("src.hi")