Por que revisitamos o experimento
O experimento anterior avaliava gate pós-geração com sobreposição lexical e validação de citações.
A direção estava certa: ancoragem lexical é um sinal fraco. Mas o benchmark novo deixou a conclusão muito mais clara:
- semântica melhora relevância no domínio
- semântica sem política de confiança pode super-recuperar fora de domínio
- lexical continua útil como fallback seletivo, não como motor principal de relevância
Este texto reescreve a interpretação com foco em comportamento de sistema, não apenas no filtro de resposta.
Desenho experimental atualizado
Saímos de prompts ad-hoc para seed versionado, rotulado e reprodutível.
Método resumido:
- seed versionado com queries rotuladas
- execução A/B controlada (semântica vs lexical)
- ablação de políticas de confiança sobre as saídas semânticas
O que foi adicionado:
- controles negativos explícitos (fora de domínio)
- buckets por tipo de query (keyword, paráfrase, estresse semântico)
- métricas de IR no nível de retrieval (Precision@k, Recall@k, MRR, nDCG)
- métricas de robustez (falso positivo em negativos)
O que aprendemos
1. Semântica ganha em qualidade no domínio
Em queries positivas, a recuperação semântica superou a lexical nas métricas de relevância.
2. Semântica pode falhar em robustez
Sem gate, a recuperação semântica aceitou queries fora de domínio com frequência alta demais. Esse é o principal risco de produção.
3. Lexical não basta, mas ajuda
Lexical tem recall menor, porém é mais conservadora e ajuda a reduzir aceitações ruins em cenários ambíguos/fora de domínio. Como fallback, aumenta resiliência.
Estudo de política de gate
Rodamos ablação sobre saídas semânticas:
- baseline (sempre aceita semântica)
- limiares de score
- acordo lexical apenas
- política mista (score ou acordo lexical)
Na nossa base, a política mista entregou o melhor tradeoff entre qualidade e robustez.
O limiar exato não é universal. A política precisa ser calibrada no seu corpus e reavaliada continuamente.
Recomendação prática
Se você usa retrieval com Sanity em produção:
- Mantenha semântica como primária.
- Adicione gate de confiança para aceitar contexto semântico.
- Mantenha fallback lexical em modo híbrido.
- Tenha seed de benchmark versionado com controles negativos.
- Reexecute a avaliação após mudanças de conteúdo ou retrieval.
Esse processo separa demo convincente de sistema confiável.