본문 바로가기

Coding

[python] KBO 기록실 크롤링 - 3

블로그를 시작한 지 얼마 안되고, 프로그래밍에 관심있으신 귀여운 은인께 공유드렸다.

 

근데 올렸던 코드들을 보고 슥슥 만들어보셨는데 다음과 같은데 코드를 짜셨다.

beautifulsoup와 함께 같이 썼던 내 지저분한 코드와는 다르게

Only Selenium으로 해서 구성하셨다.

 

xpath로 해당 개체에서 다이렉트로 접근하여 크롤링하신 것을 알 수 있는데, 검색해보니까

https://hyesunzzang.tistory.com/123

 

Web 소스에서 XPath 경로 복사는 방법 (크롤링할 때 유용)

 파이썬 크롤링 스터디를 하면서 class 이름 등의 정보가 없을 때 XPath를 사용해야 하는 데 이것을 일일이 만들기는 힘들다 개발자 도구에서 선택한 개체?의 XPath를 복사할 수 있는 기능이 있다 원

hyesunzzang.tistory.com

바로 이런 식으로 가져올 수 있었다.

a_list = driver.find_elements_by_css_selector('#cphContents_cphContents_cphContents_udpContent > div.record_result > table > tbody > tr > td > a')

이 것 역시 마찬가지로 css 셀렉터를 활용해 가져온 것인데 이건 부모 노드를 가져와서 자식 노드들을 다 가져온 것이라고 한다.

 

오오.. CSS.. HTML..

 

크롤링을 배우면서 HTML, CSS에 대한 공부도 필요성을 느낀다.

 

사실 당연한 게 해당 페이지의 데이터를 가져오는 거니까 HTML, CSS 관련한 인자가 많고 해당 인자들을 가져와서 데이터화하는 것이 타당할 것.

 

본인이라면 이렇게 했을텐데~ 하고 알려주셨는데 대단한 것 같다. 더 열심히 공부해야지

 

다음에는 수비와 주루 데이터도 합치고 WAR나 피타고리안 승률까지 계산해보려 한다.