DEV Community

Octoparse Español
Octoparse Español

Posted on • Edited on

¿Cómo Análisis de Dato & Web Crawlers pueden ayudar a hacer crecer su negocio?

Probablemente haya escuchado cómo el análisis de datos está impactando nuestras vidas. Para las empresas es mucho más fácil analizar el comportamiento de sus clientes y las demandas del mercado con datos valiosos en las manos.

Wal-Mart, para competir con Amazon, creó un motor de búsqueda llamado "Polaris" que se basa en análisis estadísticos y análisis semántico. Polaris puede obtenar mensajes sobre productos pined/Me gusta/Guardados de las redes sociales Facebook de nuevo por búsqueda de contenido del usuario. Como resultado, Wal-Mart gana el control sobre los consumidores.

Inspirado por la estrategia basada en datos de Wal-Mart, analicé la posible correlación entre la frecuencia de inicio de sesión de los usuarios (Frecuencia) y su cantidad de compra (Bienes).

Para lo siguiente, compartiré algunas instrucciones sobre cómo obtengo los registros de datos de los usuarios y lo que he hecho con mi análisis de datos.

Parte 1, Recopilar registros de datos de usuario
Puede haber muchos datos de registros de usuarios en su sistema de administración de usuarios en línea. Sin embargo, necesitamos exportarlo como un conjunto de datos más estructurado y almacenarlo en el lado local para su posterior análisis. Para la mayoría de las empresas, puede ser costoso rastrear datos desde sitios web mediante programación. Aquí, puedo compartir con ustedes la forma en que scrape los datos de mi sistema de administración en línea. Normalmente, uso Octoparse, que es un web scraper/crawler automático diseñado para no programadores. Podemos recopilar fácilmente los datos de destino simplemente arrastrando y haciendo clic. Debido la privacidad, no puedo mostrarle directamente cómo scrapear mi propio sitio de administración de usuarios. Sin embargo, tomaré Rakuten.com como ejemplo para mostrarle cómo funciona rastrear los datos de destino utilizando esta herramienta gratuita de web scraping. La interfaz de operación es la siguiente.

alt

Para scrape los datos:

Paso 1, ingrese la URL de destino. Espere a que la página web se cargue completamente dentro del navegador incorporado.

Paso 2, configura el buclo de paginación. Octoparse pasará automáticamente a la página siguiente y le proporcionará un conjunto completo de datos.

Paso 3, cree una lista de bucles para incluir todos los bloques que contienen campos de datos de destino, al igual que el cuadro rojo que se muestra arriba.

Paso 4, comience a scrapear los campos de datos, como Nombre, Precio, Frecuencia de clics en este ejemplo. En este caso, necesito la frecuencia de inicio de sesión, el número de artículos comprados y la identificación del usuario.

Paso 5. haz clic en el siguiente paso siguiendo las instrucciones y selecciona "Extracción local". Luego, puede ver cómo se extraen los datos en el panel de extracción de datos en un corto período de tiempo.
alt

Octoparse nos permite extraer datos a varios formatos, incluidos, entre otros, Excel, CSV, HTML, etc. Puede elegir la forma de exportar según sus necesidades.

alt

Parte 2, Análisis de datos
Paso 1, Presunción

Volviendo a mi caso experimental, he exportado todos mis datos a Excel. Ahora, investigaré si estos dos factores (frecuencia de inicio de sesión, número de mercancía) realmente se entrelazan entre sí. Los datos recopilados se reorganizarán y se mostrarán en la tabla a continuación. (Nota: La tabla solo muestra partes de los datos crawled).

alt

Con estos crawled data, podemos trazar un diagrama de dispersión para observar que estos supuestos puntos de coordenadas (Frecuencia de Inicio de Sesión, Número de Compra) se distribuyen de manera regular. El diagrama final disperso se muestra a continuación. A partir de la distribución del número de compra, podemos decir que la mayoría de los puntos dispersos se han reunido entre 2 y 5, a quienes posiblemente podríamos definir como usuarios de alta calidad.

Esto supone un escenario en el que las personas con una frecuencia de inicio de sesión que cae en el rango entre 2 y 5 pueden exhibir una mayor inclinación a comprar. Además, al observar la línea de tendencia roja, podríamos suponer que cuanto mayor es la frecuencia de inicio de sesión dentro de este rango, más productos están dispuestos a comprar los clientes. Sin embargo, esto es solo una suposición subjetiva. Ahora tenemos que ir más allá para probar nuestra hipótesis.

alt

Paso 2, Análisis de prueba de hipótesis estadísticas (P-value Approach)

Ahora, experimentemos con la presunción de que podría haber una correlación subyacente entre la frecuencia de inicio de sesión de los usuarios y su número de cantidad de compra.

Primero, he asumido que el número de frecuencia de inicio de sesión está dentro de [2, 5].

A continuación, separando 2, 3 y 5, que son el número de frecuencia de inicio de sesión destacado, puedo llevar a cabo el análisis estadístico de prueba de hipótesis.

Para comenzar, hago un muestreo aleatorio del conjunto de datos completo y selecciono 22 registros de datos de muestra para el Experimento como se muestra en la tabla a continuación.

alt

Luego, puede usar Matlab o cualquier otra herramienta de análisis de datos disponible para hacer un análisis de varianza de factor único. Tenga en cuenta que establecemos el nivel de significancia α, la probabilidad de cometer un error de Tipo I en 0.05.

El resultado final es el siguiente. A partir del análisis de varianza, podemos ver que estos tres grupos se exhiben de manera diferente en Promedio, por lo tanto, podemos especificar una suposición --- La diferencia de grupos de muestra es causada por el error de muestreo del experimento.

Compare el valor P con α, podemos ver que el valor P es menor que α, por lo tanto, podemos rechazar la hipótesis nula a favor de la hipótesis alternativa de que existen diferencias entre estos tres grupos. Además, podemos validar que el número de cantidad de compra del usuario está validado para verse afectado por su frecuencia de inicio de sesión.

alt

A partir del análisis anterior, puedo prestar más atención a aquellos usuarios objetivo con una frecuencia de inicio de sesión específica, enfocar mi objetivo y plan de presupuesto, también servir mejor para esos usuarios de alta calidad.

Top comments (0)