jsoup의 가장 핵심적인 클래스 :
1) Document - url을 연결해서 얻게 되는 HTML 문서
2) Elements - Element들이 모인 자료형
3) Element - Document의 요소
웹 크롤링을 하려면 먼저 HTML 문서를 가져와야 한다.
Document document = Jsoup.connect("url").get()와 같이 타이핑 해주면 된다.
url에 ?에 처리하여 얻고자 하는 HTML 문서를 얻을 수 있다.
Document 클래스의 select() 함수 속 파라미터에 CSS 선택자 또는 태그의 이름을 넣어 Element의 집합, Elements를 얻어올 수 있다. 이를 향상된 for문을 이용해 Element 클래스의 객체에 넣을 수 있다. 이후 Element 클래스의 text() 함수를 이용해 각각의 요소를 텍스트화할 수 있다.
ex) element.select("src[class='hi']") or element.select("src.hi")
'Spring Boot' 카테고리의 다른 글
Spring Boot - STOMP를 이용한 실시간 채팅 구현 (0) | 2024.04.08 |
---|---|
Spring Boot - WebSocket을 이용한 실시간 채팅 구현 (0) | 2024.04.06 |
Spring Boot에서 selenium으로 동적 웹 크롤링하기 (0) | 2024.03.21 |
Spring Boot - WebFlux (0) | 2024.03.10 |
Spring Boot에서 open api 사용하기 (0) | 2024.03.08 |