Spring Boot
Spring Boot에서 jsoup으로 웹 크롤링하기
최-코드
2024. 3. 14. 00:28
jsoup의 가장 핵심적인 클래스 :
1) Document - url을 연결해서 얻게 되는 HTML 문서
2) Elements - Element들이 모인 자료형
3) Element - Document의 요소
웹 크롤링을 하려면 먼저 HTML 문서를 가져와야 한다.
Document document = Jsoup.connect("url").get()와 같이 타이핑 해주면 된다.
url에 ?에 처리하여 얻고자 하는 HTML 문서를 얻을 수 있다.
Document 클래스의 select() 함수 속 파라미터에 CSS 선택자 또는 태그의 이름을 넣어 Element의 집합, Elements를 얻어올 수 있다. 이를 향상된 for문을 이용해 Element 클래스의 객체에 넣을 수 있다. 이후 Element 클래스의 text() 함수를 이용해 각각의 요소를 텍스트화할 수 있다.
ex) element.select("src[class='hi']") or element.select("src.hi")