En internet existe infinidad de información a la que podemos acceder, ya sea en foros, blogs, wikis, etc.. todas nos proporcionan cualquier tipo de información que podría sernos o no de gran utilidad.
Algunas veces estos sitios nos ofrecen la facilidad de obtener su información mediante diferentes métodos, algunos de ellos pueden ser:
- Archivos que se pueden descargar directamente (csv, json, etc..)
- Mediante una API que conecta con su base de datos.
Y finalmente la última opción, la cual es un formato muy cómodo para los usuarios que recurrentemente visitan la página web, pero un poco frustrante para extraerla a un programa.
Por fortuna en Python existen librerías que nos ayudan a extraer la información de cualquier página web, con el simple hecho de visualizar la información en un navegador de internet bastara para extraerla, es lo que se conoce propiamente con el termino de web scrapping.
Dentro de la última opción, tenemos dos posibilidades. En la primera, podemos acceder a la información visitando el sitio web mediante la URL. En este caso al descargar todo el contenido de la página usaremos la biblioteca BeautifulSoap, la cual nos permitirá buscar el contenido deseado dentro del sitio web.
La otra posibilidad es para sitios de mayor seguridad que detectan este tipo de librerías, por suerte tenemos la siguiente librería Selenium, que nos permitirá realizar todo lo que haríamos desde el navegador de internet.
Espero que les ayude esta pequeña introducción al web scrapping, estos días estaré subiendo más contenido sobre esto para que les pueda servir en sus próximos desarrollos.
Saludos.
Top comments (0)