1. O Que é um Teste A/B
Um teste A/B (também chamado de split test) é um experimento controlado no qual duas versões de um elemento — uma página, um botão, um email, uma oferta — são exibidas simultaneamente a segmentos distintos do público para comparar qual versão gera melhor desempenho em uma métrica definida (taxa de conversão, cliques, compras, cadastros etc.).
A versão A é geralmente o controle (o elemento atual) e a versão B é o desafiante (a variação que se quer testar). O resultado do teste determina, com base em evidência estatística, se existe diferença real entre as duas versões ou se qualquer variação observada é fruto do acaso.
2. O Que é Significância Estatística
Significância estatística é a medida de confiança de que a diferença observada entre A e B não ocorreu por acaso. Ela é expressa como o complemento do p-value: se o p-value é 0,05, temos 95% de confiança de que a diferença é real.
- Nível de confiança de 95% (α = 0,05): padrão da indústria para a maioria dos testes de CRO e produto.
- Nível de confiança de 99% (α = 0,01): recomendado para decisões de alto impacto financeiro ou risco regulatório.
- Nível de confiança de 90% (α = 0,10): aceitável para testes exploratórios com baixo custo de erro.
"Significância estatística não é um sinal verde automático para implementar B. É apenas evidência de que a diferença observada provavelmente não é ruído — a decisão de negócio ainda precisa considerar o uplift absoluto e o custo de implementação."
3. Z-Test para Proporções
Para testes A/B de conversão, a ferramenta mais adequada é o z-test para duas proporções. O cálculo envolve:
- Calcular as taxas de conversão p₁ (variante A) e p₂ (variante B).
- Calcular a proporção agrupada (pooled proportion) sob a hipótese nula de que as duas taxas são iguais.
- Calcular o erro padrão (SE) da diferença entre as proporções.
- Calcular o z-score: z = (p₂ − p₁) / SE.
- Converter o z-score em p-value usando a distribuição normal padrão (teste bicaudal).
Se o z-score observado superar o z crítico para o nível de confiança escolhido (1,96 para 95%), o resultado é estatisticamente significativo.
4. Tamanho de Amostra e Poder Estatístico
Um dos erros mais comuns em testes A/B é encerrar o experimento antes de coletar dados suficientes. O tamanho de amostra necessário depende de três fatores:
- Taxa de conversão base: quanto menor a taxa, maior a amostra necessária.
- MDE (Efeito Mínimo Detectável): o menor uplift que você deseja ser capaz de identificar. Uplift menor exige mais dados.
- Poder estatístico (1 − β): geralmente 80%, representa a probabilidade de detectar um efeito real quando ele existe.
Use a aba "Tamanho de Amostra" para calcular quantos visitantes cada variante precisa antes de iniciar o teste.
5. Erros Comuns em Testes A/B
- Peeking: analisar resultados continuamente e encerrar ao atingir significância — isso infla a taxa de falsos positivos.
- Amostras insuficientes: resultados com menos de 100 conversões por variante são instáveis.
- Múltiplas hipóteses: testar muitas variáveis ao mesmo tempo aumenta a chance de falsos positivos.
- Segmentação pós-hoc: analisar subgrupos não planejados no design do teste invalida os resultados estatísticos.
- Efeito de novidade: usuários reagindo ao que é novo, não ao que é melhor — monitore resultados ao longo do tempo.
6. Perguntas Frequentes
Quanto tempo devo manter o teste rodando?
O suficiente para atingir o tamanho de amostra calculado, mas no mínimo 1-2 semanas para capturar variações de dia da semana. Nunca encerre o teste apenas porque atingiu significância antes do tamanho de amostra planejado.
Posso testar mais de duas variantes?
Sim — isso é chamado de teste multivariado (MVT). Mas cada variante adicionada aumenta o tamanho de amostra necessário e a complexidade da análise. Para a maioria dos casos, testes A/B com uma variante de cada vez são mais eficientes.
O que fazer quando o resultado não é significativo?
Um resultado não significativo não significa que B é igual a A — significa que você não tem evidência suficiente para concluir que são diferentes. Colete mais dados, revise a hipótese ou considere que a mudança testada simplesmente não tem impacto relevante nessa métrica.