DEV Community

Roberto Vinicius da silva
Roberto Vinicius da silva

Posted on

Análises Estatísticas: Entendendo Quando e Como Utilizá-las

Image description

No mundo da análise de dados, escolher a técnica estatística correta é fundamental para extrair insights significativos. Neste artigo, irei explorar três técnicas de análises estatísticas importantes: a correlação de Pearson, o Information Value (IV) e o Coeficiente de Determinação (R²). Utilizaremos um dataset fictício com 30 registros para ilustrar cada técnica utilizando o Excel. O Excel com o dataset e as análises realizadas estão disponíveis aqui.

1. Correlação de Pearson: Relacionando Variáveis Quantitativas

A correlação de Pearson é uma medida que avalia a força e a direção da relação linear entre duas variáveis quantitativas. O resultado varia de -1 a 1, onde:

  • 1 indica uma correlação positiva perfeita,
  • menos 1 indica uma correlação negativa perfeita,
  • 0 indica nenhuma correlação.

Quando utilizar?
Você deve usar a correlação de Pearson quando ambas as variáveis forem quantitativas e apresentarem uma relação linear. Por exemplo, no nosso dataset, podemos analisar a relação entre “Idade” e “Salário”.

Nas análises realizada no Excel, obtemos um valor de 0.93, ou seja, há uma correlação forte entre as variáveis. Além do cálculos realizados, também podemos utilizar o gráfico de dispersão para tentar identificar relação linear positiva/negativa entre as variáveis.

Image description

Para calcular a correlação entre as variáveis usamos a função do Excel: correl(matriz1; matriz2)

Através da análise podemos concluir que:

  • A medida que a idade aumenta, o salário também tende a aumentar;

2. Information Value (IV): Analisando Variáveis Qualitativas

O que é?
O Information Value (IV) é uma métrica que quantifica a capacidade de uma variável preditora em diferenciar entre duas classes, geralmente em um contexto binário (por exemplo, “Sim” e “Não”). O IV é especialmente útil em modelos de previsão.

Quando utilizar?
O IV é utilizado quando você tem variáveis qualitativas (categóricas) e uma variável binária. Por exemplo, podemos analisar a relação entre “Gênero” e “Comprou” (Sim/Não).

Calculamos o IV para entender como o gênero influencia a probabilidade de compra. Se o IV for alto, isso indica que o gênero é um bom preditor para a decisão de compra.

Classificamos o poder de separação entre eles de acordo com o seu valor:

Image description

Image description

Nas análises realizadas, o valor do IV é de 0.23, ou seja, ele tem um valor com poder de separação médio.

3. Coeficiente de Determinação (R²): Avaliando a Relação entre Variáveis

O que é?
O Coeficiente de Determinação (R²) é uma medida que indica a proporção da variação em uma variável dependente que pode ser explicada pela variação em uma variável independente. O valor de R² varia de 0 a 1, onde quanto mais próximo de 1 indica que a variável explica variação da variável dependente.

Quando utilizar?
Use o R² quando você tiver uma variável qualitativa e uma quantitativa e quiser entender como a qualitativa afeta a quantitativa. Por exemplo, analisamos a relação entre “Gênero” (qualitativa) e “Salário” (quantitativa).

Image description

Nas análises, “Salário” é a variável dependente e “Gênero” a independente, com R² = 11%, indicando que o gênero explica apenas 11% da diferença de salários.

Através dessa análise concluirmos que:

  • R² de 11% sugere que a variável gênero tem uma capacidade limitada para explicar as diferenças salariais, ou seja, 89% da variação nos salários é influenciada por outros fatores que não estão sendo considerados;

Conclusões:

  • Para a análise de 02 variáveis quantitativas, utilize a Correlação de Pearson e/ou gráfico de dispersão.
  • Para a análise de 02 variáveis qualitativas, sendo uma binária, use o Information Value (IV).
  • Para 01 variável qualitativa e 01quantitativa, utilize o Coeficiente de Determinação (R²) e/ou um box plot.

Top comments (0)