1. Medidas de Tendência Central
As medidas de tendência central buscam identificar um valor representativo de um conjunto de dados. As três principais são a média, a mediana e a moda, cada uma com características e casos de uso distintos.
A média aritmética é a soma de todos os valores dividida pelo número de observações. É sensível a outliers — um único valor extremo pode distorcer significativamente o resultado. A mediana é o valor central do conjunto ordenado e é robusta a outliers, sendo preferida quando a distribuição é assimétrica (como renda ou preços de imóveis). A moda representa o valor mais frequente e é a única medida aplicável a dados nominais.
"Quando média e mediana divergem muito, isso é um sinal claro de assimetria na distribuição — um ponto de partida importante para análise exploratória."
2. Medidas de Dispersão
As medidas de dispersão quantificam o quanto os dados se afastam do valor central. O desvio padrão e a variância são as mais comuns. A variância é a média dos quadrados dos desvios em relação à média — o desvio padrão é sua raiz quadrada, devolvendo a medida à mesma unidade dos dados originais.
Atenção à diferença entre desvio padrão amostral (divisor n−1, correção de Bessel) e populacional (divisor n). Use o amostral quando seus dados são uma amostra de uma população maior — o que é quase sempre o caso em análises práticas. O coeficiente de variação (CV) expressa o desvio padrão como percentual da média, permitindo comparar dispersões entre conjuntos com escalas muito diferentes.
3. Quartis, IQR e Outliers
Os quartis dividem o conjunto ordenado em quatro partes iguais. O Q1 (25º percentil) separa os 25% menores valores, o Q2 (50º) é a mediana, e o Q3 (75º) separa os 75% menores. O IQR (Amplitude Interquartil) é a diferença Q3 − Q1 e representa a dispersão do intervalo central dos dados.
A regra de Tukey para detecção de outliers considera suspeitos os valores abaixo de Q1 − 1,5×IQR ou acima de Q3 + 1,5×IQR. O box plot gerado por esta calculadora visualiza exatamente esses limites (whiskers), mostrando também a mediana e a média (diamante).
4. Assimetria e Curtose
A assimetria (skewness) mede o grau de assimetria da distribuição. Uma assimetria positiva indica cauda à direita (maioria dos valores concentrada à esquerda, com poucos valores muito altos); negativa indica o oposto. Uma distribuição simétrica tem assimetria próxima de zero.
A curtose mede o "peso das caudas" em relação a uma distribuição normal. O excesso de curtose positivo (leptocúrtica) indica caudas pesadas com eventos extremos frequentes; negativo (platicúrtica) indica caudas leves; próximo de zero (mesocúrtica) indica comportamento similar à distribuição normal. Essas medidas são fundamentais em análise de risco financeiro, controle de qualidade e modelagem estatística.