Web scraping de sitio con resultados en multiples paginas


#1

Buenas companeros, quiero hacer web scrapping de una pagina de ofertas laborales con el fin de poder hacer análisis de las ofertas laborales, lo que pasa es que al generar los resultados, la pagia web lo hace en multiples paginas de resultados y actualmente el código que tengo solo me trae los resultados de la primera pagina, alguna recomendación para traer todos los resultados?

Adjunto mi código

ipak("rvest")
ipak("knitr")
ipak("tidyverse")
ipak("sqldf")


empleo.com <- read_html("http://www.elempleo.com/cr/ofertas-empleo/c-1-1-5-millones")

job.name <- empleo.com %>% 
  html_nodes(".text-ellipsis") %>%
  html_text() 

job.company <- empleo.com %>% 
  html_nodes(".info-company-name") %>%
  html_text() 

job.location<- empleo.com %>% 
  html_nodes(".info-city") %>%
  html_text() 

job.date<- empleo.com %>% 
  html_nodes(".info-publish-date") %>%
  html_text() 


empleoscr <- data.frame(job_company = job.company, job_name = job.name, job_location = job.location, job_date = job.date)

#2

No soy un experto en programación web pero tengo la sospecha de que en ese sitio, el contenido es generado a través de Javascript es por eso que los selectores css solo funcionan para la primera página ya que las siguientes no han sido generadas aún.

No he probado ésta funcionalidad personalmente pero tengo entendido que Rcrawler soporta el scrapping de páginas generadas con Javascript, usando la librería PhantomJS.

Tal vez te sirva de algo leer un poco de su documentación.


#3

Mil gracias Andrés! Voy a leérmelo!