[python] KBO 기록실 크롤링

블로그를 시작한 지 얼마 안되고, 프로그래밍에 관심있으신 귀여운 은인께 공유드렸다.

근데 올렸던 코드들을 보고 슥슥 만들어보셨는데 다음과 같은데 코드를 짜셨다.

beautifulsoup와 함께 같이 썼던 내 지저분한 코드와는 다르게

Only Selenium으로 해서 구성하셨다.

xpath로 해당 개체에서 다이렉트로 접근하여 크롤링하신 것을 알 수 있는데, 검색해보니까

Web 소스에서 XPath 경로 복사는 방법 (크롤링할 때 유용)

파이썬 크롤링 스터디를 하면서 class 이름 등의 정보가 없을 때 XPath를 사용해야 하는 데 이것을 일일이 만들기는 힘들다 개발자 도구에서 선택한 개체?의 XPath를 복사할 수 있는 기능이 있다 원

hyesunzzang.tistory.com

바로 이런 식으로 가져올 수 있었다.

a_list = driver.find_elements_by_css_selector('#cphContents_cphContents_cphContents_udpContent > div.record_result > table > tbody > tr > td > a')

이 것 역시 마찬가지로 css 셀렉터를 활용해 가져온 것인데 이건 부모 노드를 가져와서 자식 노드들을 다 가져온 것이라고 한다.

오오.. CSS.. HTML..

크롤링을 배우면서 HTML, CSS에 대한 공부도 필요성을 느낀다.

사실 당연한 게 해당 페이지의 데이터를 가져오는 거니까 HTML, CSS 관련한 인자가 많고 해당 인자들을 가져와서 데이터화하는 것이 타당할 것.

본인이라면 이렇게 했을텐데~ 하고 알려주셨는데 대단한 것 같다. 더 열심히 공부해야지

다음에는 수비와 주루 데이터도 합치고 WAR나 피타고리안 승률까지 계산해보려 한다.

과거 정리 - Untitled1.ipynb (Iris, Decision Tree) (0)	2022.06.27
과거 정리 - Untitled0.ipynb (import, plt 등) (0)	2022.06.27
ubuntu 제거 후 grub 커맨드 창 해결 방법 (UEFI) (+CMD 먹통 해결) (0)	2022.06.25
[python] KBO 기록실 크롤링 - 2 (0)	2022.05.30
[python] KBO 기록실 크롤링 - 1 (0)	2022.05.30

Archive