Calculadora de Teste A/B

Gratuito DevTools

Calculadora de Teste A/B

Calcule a significância estatística do seu experimento com z-test para proporções, p-value, uplift relativo e tamanho de amostra necessário. Resultado instantâneo, 100% no seu navegador.

5.3k usuarios Atualizado em Mar 2026 4.8/5

Avalie esta ferramenta:

4.8 (1247 votos) Obrigado!

Resultados do Experimento

Nível de Confiança Desejado

90%z = 1,645 95%z = 1,960 99%z = 2,576

A Variante A (Controle)

Visitantes Total de usuários expostos à variante A

Conversões Número de conversões / cliques / compras

B Variante B (Teste)

Visitantes Total de usuários expostos à variante B

Conversões Número de conversões / cliques / compras

Taxa A

—

Taxa B

—

Uplift Relativo

—

Confiança
—

Z-Score

—

P-Value

—

Z Crítico

—

Distribuição Normal — Posição do Z-Score

—

Aguardando cálculo

Passo a Passo do Cálculo

Taxas de conversão

p₁ = conversões_A / visitantes_A

p₂ = conversões_B / visitantes_B

—

Proporção agrupada (pooled)

pooled = (conv_A + conv_B) / (visit_A + visit_B)

—

Erro padrão (SE)

SE = √(pooled × (1 − pooled) × (1/visit_A + 1/visit_B))

—

Z-Score observado

z = (p₂ − p₁) / SE

—

P-Value (bicaudal)

p-value = 2 × P(Z > |z|)

—

Calculadora de Tamanho de Amostra

Taxa de Conversão Base (A)

Taxa de conversão atual do controle

Efeito Mínimo Detectável (MDE)

% relativo

Uplift mínimo que você quer detectar

Poder Estatístico

80% é o padrão da indústria

Nível de Confiança

90%z = 1,645 95%z = 1,960 99%z = 2,576

Como Usar

Analise seu experimento A/B em segundos.

Escolha o nível de confiança

Selecione 90%, 95% ou 99% conforme a criticidade da decisão.

Insira os dados

Informe visitantes e conversões para as variantes A e B.

Calcule a significância

Clique em Calcular para obter z-score, p-value e uplift.

Leia o veredicto

O resultado indica se a diferença é estatisticamente significativa.

Como funciona o Teste A/B?

Um teste A/B divide aleatoriamente seu público entre duas versões (A e B) e mede qual delas produz mais conversões. O resultado estatístico indica se a diferença observada é real ou apenas coincidência.

Significância estatística é a probabilidade de que a diferença observada não seja fruto do acaso. Com 95% de confiança, você aceita apenas 5% de chance de erro tipo I (falso positivo).

Uplift relativo = (Taxa B − Taxa A) / Taxa A × 100%. Indica o ganho percentual da variante B em relação ao controle A.

Atenção: Significância estatística não é o mesmo que relevância prática. Um uplift de 0,1% pode ser estatisticamente significativo com amostras grandes, mas ser irrelevante para o negócio.

Artigo

Teste A/B: Como Funciona, o que é Significância Estatística e Como Interpretar Resultados

Por Equipe Chipak • Atualizado em Mar 2026 • 8 min de leitura

Neste artigo

O que é um Teste A/B
O que é significância estatística
Z-test para proporções
Tamanho de amostra e poder estatístico
Erros comuns em testes A/B
Perguntas frequentes

1. O Que é um Teste A/B

Um teste A/B (também chamado de split test) é um experimento controlado no qual duas versões de um elemento — uma página, um botão, um email, uma oferta — são exibidas simultaneamente a segmentos distintos do público para comparar qual versão gera melhor desempenho em uma métrica definida (taxa de conversão, cliques, compras, cadastros etc.).

A versão A é geralmente o controle (o elemento atual) e a versão B é o desafiante (a variação que se quer testar). O resultado do teste determina, com base em evidência estatística, se existe diferença real entre as duas versões ou se qualquer variação observada é fruto do acaso.

2. O Que é Significância Estatística

Significância estatística é a medida de confiança de que a diferença observada entre A e B não ocorreu por acaso. Ela é expressa como o complemento do p-value: se o p-value é 0,05, temos 95% de confiança de que a diferença é real.

Nível de confiança de 95% (α = 0,05): padrão da indústria para a maioria dos testes de CRO e produto.
Nível de confiança de 99% (α = 0,01): recomendado para decisões de alto impacto financeiro ou risco regulatório.
Nível de confiança de 90% (α = 0,10): aceitável para testes exploratórios com baixo custo de erro.

"Significância estatística não é um sinal verde automático para implementar B. É apenas evidência de que a diferença observada provavelmente não é ruído — a decisão de negócio ainda precisa considerar o uplift absoluto e o custo de implementação."

3. Z-Test para Proporções

Para testes A/B de conversão, a ferramenta mais adequada é o z-test para duas proporções. O cálculo envolve:

Calcular as taxas de conversão p₁ (variante A) e p₂ (variante B).
Calcular a proporção agrupada (pooled proportion) sob a hipótese nula de que as duas taxas são iguais.
Calcular o erro padrão (SE) da diferença entre as proporções.
Calcular o z-score: z = (p₂ − p₁) / SE.
Converter o z-score em p-value usando a distribuição normal padrão (teste bicaudal).

Se o z-score observado superar o z crítico para o nível de confiança escolhido (1,96 para 95%), o resultado é estatisticamente significativo.

4. Tamanho de Amostra e Poder Estatístico

Um dos erros mais comuns em testes A/B é encerrar o experimento antes de coletar dados suficientes. O tamanho de amostra necessário depende de três fatores:

Taxa de conversão base: quanto menor a taxa, maior a amostra necessária.
MDE (Efeito Mínimo Detectável): o menor uplift que você deseja ser capaz de identificar. Uplift menor exige mais dados.
Poder estatístico (1 − β): geralmente 80%, representa a probabilidade de detectar um efeito real quando ele existe.

Use a aba "Tamanho de Amostra" para calcular quantos visitantes cada variante precisa antes de iniciar o teste.

5. Erros Comuns em Testes A/B

Peeking: analisar resultados continuamente e encerrar ao atingir significância — isso infla a taxa de falsos positivos.
Amostras insuficientes: resultados com menos de 100 conversões por variante são instáveis.
Múltiplas hipóteses: testar muitas variáveis ao mesmo tempo aumenta a chance de falsos positivos.
Segmentação pós-hoc: analisar subgrupos não planejados no design do teste invalida os resultados estatísticos.
Efeito de novidade: usuários reagindo ao que é novo, não ao que é melhor — monitore resultados ao longo do tempo.

6. Perguntas Frequentes

Quanto tempo devo manter o teste rodando?

O suficiente para atingir o tamanho de amostra calculado, mas no mínimo 1-2 semanas para capturar variações de dia da semana. Nunca encerre o teste apenas porque atingiu significância antes do tamanho de amostra planejado.

Posso testar mais de duas variantes?

Sim — isso é chamado de teste multivariado (MVT). Mas cada variante adicionada aumenta o tamanho de amostra necessário e a complexidade da análise. Para a maioria dos casos, testes A/B com uma variante de cada vez são mais eficientes.

O que fazer quando o resultado não é significativo?

Um resultado não significativo não significa que B é igual a A — significa que você não tem evidência suficiente para concluir que são diferentes. Colete mais dados, revise a hipótese ou considere que a mudança testada simplesmente não tem impacto relevante nessa métrica.