블로그를 시작한 지 얼마 안되고, 프로그래밍에 관심있으신 귀여운 은인께 공유드렸다.
근데 올렸던 코드들을 보고 슥슥 만들어보셨는데 다음과 같은데 코드를 짜셨다.
beautifulsoup와 함께 같이 썼던 내 지저분한 코드와는 다르게
Only Selenium으로 해서 구성하셨다.
xpath로 해당 개체에서 다이렉트로 접근하여 크롤링하신 것을 알 수 있는데, 검색해보니까
https://hyesunzzang.tistory.com/123
Web 소스에서 XPath 경로 복사는 방법 (크롤링할 때 유용)
파이썬 크롤링 스터디를 하면서 class 이름 등의 정보가 없을 때 XPath를 사용해야 하는 데 이것을 일일이 만들기는 힘들다 개발자 도구에서 선택한 개체?의 XPath를 복사할 수 있는 기능이 있다 원
hyesunzzang.tistory.com
바로 이런 식으로 가져올 수 있었다.
a_list = driver.find_elements_by_css_selector('#cphContents_cphContents_cphContents_udpContent > div.record_result > table > tbody > tr > td > a')
이 것 역시 마찬가지로 css 셀렉터를 활용해 가져온 것인데 이건 부모 노드를 가져와서 자식 노드들을 다 가져온 것이라고 한다.
오오.. CSS.. HTML..
크롤링을 배우면서 HTML, CSS에 대한 공부도 필요성을 느낀다.
사실 당연한 게 해당 페이지의 데이터를 가져오는 거니까 HTML, CSS 관련한 인자가 많고 해당 인자들을 가져와서 데이터화하는 것이 타당할 것.
본인이라면 이렇게 했을텐데~ 하고 알려주셨는데 대단한 것 같다. 더 열심히 공부해야지
다음에는 수비와 주루 데이터도 합치고 WAR나 피타고리안 승률까지 계산해보려 한다.
'Coding' 카테고리의 다른 글
과거 정리 - Untitled1.ipynb (Iris, Decision Tree) (0) | 2022.06.27 |
---|---|
과거 정리 - Untitled0.ipynb (import, plt 등) (0) | 2022.06.27 |
ubuntu 제거 후 grub 커맨드 창 해결 방법 (UEFI) (+CMD 먹통 해결) (0) | 2022.06.25 |
[python] KBO 기록실 크롤링 - 2 (0) | 2022.05.30 |
[python] KBO 기록실 크롤링 - 1 (0) | 2022.05.30 |