playwright2 [토이프로젝트] KBO 경기 일정 수집하기(3) - 멀티 스레드 기반의 경기 정보 병렬 수집 목차/pages/KBO-경기-일정-수집하기-시리즈병렬 프로세스 생각한 계기KBO 공식 사이트 경기 일정 페이지의 특성 상 한 번에 1개의 시리즈의 한달치 경기 일정만 조회할 수 있습니다. 즉, 1년 전체 일정을 수집하려면 시범경기, 정규시즌, 포스트시즌 각각 1월부터 12월까지 총 36번의 요청이 필요한 것이죠. 이 요청을 동기 방식으로 처리한다면 이전 요청이 끝나야 다음 요청이 실행되기 때문에 36번의 요청을 모두 처리하기 까지 시간이 꽤 많이 걸립니다. 그렇다보니 비동기 요청으로 요청 시간을 줄이면 어떨까 하는 생각이 든거죠. 물론 시범경기는 보통 3월 한달만 진행되고 포스트시즌은 정규시즌이 끝난 후 약 한달 정도만 진행되는 만큼 엄격히 따지면 요청 횟수를 줄일 수 있긴 합니다. 그래도 우선은 코드 .. 2025. 12. 9. [토이프로젝트] KBO 경기 일정 수집하기(1) - 데이터 크롤링과 파싱(With 스프링부트 + Playwright) 목차/pages/KBO-경기-일정-수집하기-시리즈계기평소에 야구를 좋아하다 보니 경기 일정이나 결과를 데이터로 뭔가 해보면 어떨까 하는 생각이 들었습니다. 당장 데이터로 뭘 할지는 생각해보지 않았지만 그래도 일단 데이터를 수집해두면 뭐라도 하지 않을까 싶어 내친김에 시도해봤습니다. 처음에는 개발자 센터 같은곳에서 제공하는 API가 있나 찾아봤는데 아무래도 KBO는 개발자 센터나 오픈 API를 제공하지 않는 모양이더라구요. 그래서 KBO 공식 사이트를 크롤링하여 데이터를 수집해봐겠다는 생각을 하게 됐습니다.robots.txt 정책 확인 하기특정 웹사이트를 크롤링하려면 먼저 해당 사이트의 robots.txt 파일을 확인해서 크롤링을 허용하거나 허용하지 않는 경로를 확인해야 한다고 합니다. 물론 robots... 2025. 11. 25. 이전 1 다음