DEV Community

Octoparse Español
Octoparse Español

Posted on • Edited on

Web Scraping - Scraping de AJAX y JavaScript Websites

Manejar AJAX y JavaScript

Hablando sobre el manejo de AJAX y JavaScript mientras se raspa la web, a veces puede ser complicado, especialmente cuando eres un novato en tecnología.

Últimamente he recibido muchas preguntas sobre cómo scrape AJAX y JavaScript. He recopilado algunas de las preguntas más frecuentes de los clientes.

. ¿Cómo scrape un sitio web AJAX de desplazamiento infinito?
. ¿Cómo scrape datos y hago clic en el botón cargar o en el botón Siguiente?
. ¿Cómo scrape los sitios web con contenido AJAX (como Gumtree)?
. ¿Se puede usar Octoparse para raspar contenido dinámico de sitios web que usan AJAX?
. ¿Puedo scrape datos del sitio web con paginación?
. ¿Puedo scrape sitios web que cargan datos dinámicamente (como Facebook)?
. ¿Puedo rastrear un sitio web que carga contenido usando Javascript?

......

Lidiando con el desplazamiento infinito/cargar más
Tratar con AJAX
Extrección Incremental:Obtenga datos actualizados fácilmente
¿Cómo manejar la paginación con números de página?
Autodetección AJAX

Scraping de Páginas Web con AJAX No es Fácil

A veces las personas ven páginas web y encuentran que el contenido de AJAX se está cargando en la web pero piensan que el sitio no puede ser scraped. Si está aprendiendo Python y está sumergiendo su mano en la construcción de un raspador web. No va a ser muy fácil. Si está buscando una manera fácil y rápida de hacer esto, especialmente para grandes cargas de trabajo, es posible que desee buscar aplicaciones de terceros para extraer datos de páginas web con AJAX.

Ejemplo: Scrape Websites con Desplazamiento Infinito

Entonces, como ejemplo, lo que voy a mostrar es cómo scrape sitios web con desplazamiento infinito. (Si eres un programador experimentado y escribes tu asombroso herramientas de raspado web, simplemente ignora mi galimatías).

Vea aquí cómo manejarc y scrape los websites de desplazamiento infinito.

Top comments (0)