Calculadora de Teste A/B

Gratuito DevTools

Calculadora de Teste A/B

Calcule a significância estatística do seu experimento com z-test para proporções, p-value, uplift relativo e tamanho de amostra necessário. Resultado instantâneo, 100% no seu navegador.

5.3k usuarios Atualizado em Mar 2026 4.8/5
Avalie esta ferramenta:
4.8 (1247 votos) Obrigado!
Resultados do Experimento
A Variante A (Controle)
Total de usuários expostos à variante A
Número de conversões / cliques / compras
B Variante B (Teste)
Total de usuários expostos à variante B
Número de conversões / cliques / compras

Como Usar

Analise seu experimento A/B em segundos.

1
Escolha o nível de confiança
Selecione 90%, 95% ou 99% conforme a criticidade da decisão.
2
Insira os dados
Informe visitantes e conversões para as variantes A e B.
3
Calcule a significância
Clique em Calcular para obter z-score, p-value e uplift.
4
Leia o veredicto
O resultado indica se a diferença é estatisticamente significativa.

Como funciona o Teste A/B?

Um teste A/B divide aleatoriamente seu público entre duas versões (A e B) e mede qual delas produz mais conversões. O resultado estatístico indica se a diferença observada é real ou apenas coincidência.

Significância estatística é a probabilidade de que a diferença observada não seja fruto do acaso. Com 95% de confiança, você aceita apenas 5% de chance de erro tipo I (falso positivo).

Uplift relativo = (Taxa B − Taxa A) / Taxa A × 100%. Indica o ganho percentual da variante B em relação ao controle A.

Atenção: Significância estatística não é o mesmo que relevância prática. Um uplift de 0,1% pode ser estatisticamente significativo com amostras grandes, mas ser irrelevante para o negócio.

Teste A/B: Como Funciona, o que é Significância Estatística e Como Interpretar Resultados

Neste artigo
  1. O que é um Teste A/B
  2. O que é significância estatística
  3. Z-test para proporções
  4. Tamanho de amostra e poder estatístico
  5. Erros comuns em testes A/B
  6. Perguntas frequentes

1. O Que é um Teste A/B

Um teste A/B (também chamado de split test) é um experimento controlado no qual duas versões de um elemento — uma página, um botão, um email, uma oferta — são exibidas simultaneamente a segmentos distintos do público para comparar qual versão gera melhor desempenho em uma métrica definida (taxa de conversão, cliques, compras, cadastros etc.).

A versão A é geralmente o controle (o elemento atual) e a versão B é o desafiante (a variação que se quer testar). O resultado do teste determina, com base em evidência estatística, se existe diferença real entre as duas versões ou se qualquer variação observada é fruto do acaso.

2. O Que é Significância Estatística

Significância estatística é a medida de confiança de que a diferença observada entre A e B não ocorreu por acaso. Ela é expressa como o complemento do p-value: se o p-value é 0,05, temos 95% de confiança de que a diferença é real.

  • Nível de confiança de 95% (α = 0,05): padrão da indústria para a maioria dos testes de CRO e produto.
  • Nível de confiança de 99% (α = 0,01): recomendado para decisões de alto impacto financeiro ou risco regulatório.
  • Nível de confiança de 90% (α = 0,10): aceitável para testes exploratórios com baixo custo de erro.
"Significância estatística não é um sinal verde automático para implementar B. É apenas evidência de que a diferença observada provavelmente não é ruído — a decisão de negócio ainda precisa considerar o uplift absoluto e o custo de implementação."

3. Z-Test para Proporções

Para testes A/B de conversão, a ferramenta mais adequada é o z-test para duas proporções. O cálculo envolve:

  1. Calcular as taxas de conversão p₁ (variante A) e p₂ (variante B).
  2. Calcular a proporção agrupada (pooled proportion) sob a hipótese nula de que as duas taxas são iguais.
  3. Calcular o erro padrão (SE) da diferença entre as proporções.
  4. Calcular o z-score: z = (p₂ − p₁) / SE.
  5. Converter o z-score em p-value usando a distribuição normal padrão (teste bicaudal).

Se o z-score observado superar o z crítico para o nível de confiança escolhido (1,96 para 95%), o resultado é estatisticamente significativo.

4. Tamanho de Amostra e Poder Estatístico

Um dos erros mais comuns em testes A/B é encerrar o experimento antes de coletar dados suficientes. O tamanho de amostra necessário depende de três fatores:

  • Taxa de conversão base: quanto menor a taxa, maior a amostra necessária.
  • MDE (Efeito Mínimo Detectável): o menor uplift que você deseja ser capaz de identificar. Uplift menor exige mais dados.
  • Poder estatístico (1 − β): geralmente 80%, representa a probabilidade de detectar um efeito real quando ele existe.

Use a aba "Tamanho de Amostra" para calcular quantos visitantes cada variante precisa antes de iniciar o teste.

5. Erros Comuns em Testes A/B

  • Peeking: analisar resultados continuamente e encerrar ao atingir significância — isso infla a taxa de falsos positivos.
  • Amostras insuficientes: resultados com menos de 100 conversões por variante são instáveis.
  • Múltiplas hipóteses: testar muitas variáveis ao mesmo tempo aumenta a chance de falsos positivos.
  • Segmentação pós-hoc: analisar subgrupos não planejados no design do teste invalida os resultados estatísticos.
  • Efeito de novidade: usuários reagindo ao que é novo, não ao que é melhor — monitore resultados ao longo do tempo.

6. Perguntas Frequentes

Quanto tempo devo manter o teste rodando?

O suficiente para atingir o tamanho de amostra calculado, mas no mínimo 1-2 semanas para capturar variações de dia da semana. Nunca encerre o teste apenas porque atingiu significância antes do tamanho de amostra planejado.

Posso testar mais de duas variantes?

Sim — isso é chamado de teste multivariado (MVT). Mas cada variante adicionada aumenta o tamanho de amostra necessário e a complexidade da análise. Para a maioria dos casos, testes A/B com uma variante de cada vez são mais eficientes.

O que fazer quando o resultado não é significativo?

Um resultado não significativo não significa que B é igual a A — significa que você não tem evidência suficiente para concluir que são diferentes. Colete mais dados, revise a hipótese ou considere que a mudança testada simplesmente não tem impacto relevante nessa métrica.