Do Filtro Lexical ao Gate Semântico: O Que Nossos Experimentos de Retrieval no Sanity Mostraram

Por que revisitamos o experimento

O experimento anterior avaliava gate pós-geração com sobreposição lexical e validação de citações.

A direção estava certa: ancoragem lexical é um sinal fraco. Mas o benchmark novo deixou a conclusão muito mais clara:

semântica melhora relevância no domínio
semântica sem política de confiança pode super-recuperar fora de domínio
lexical continua útil como fallback seletivo, não como motor principal de relevância

Este texto reescreve a interpretação com foco em comportamento de sistema, não apenas no filtro de resposta.

Desenho experimental atualizado

Saímos de prompts ad-hoc para seed versionado, rotulado e reprodutível.

Método resumido:

seed versionado com queries rotuladas
execução A/B controlada (semântica vs lexical)
ablação de políticas de confiança sobre as saídas semânticas

O que foi adicionado:

controles negativos explícitos (fora de domínio)
buckets por tipo de query (keyword, paráfrase, estresse semântico)
métricas de IR no nível de retrieval (Precision@k, Recall@k, MRR, nDCG)
métricas de robustez (falso positivo em negativos)

O que aprendemos

1. Semântica ganha em qualidade no domínio

Em queries positivas, a recuperação semântica superou a lexical nas métricas de relevância.

2. Semântica pode falhar em robustez

Sem gate, a recuperação semântica aceitou queries fora de domínio com frequência alta demais. Esse é o principal risco de produção.

3. Lexical não basta, mas ajuda

Lexical tem recall menor, porém é mais conservadora e ajuda a reduzir aceitações ruins em cenários ambíguos/fora de domínio. Como fallback, aumenta resiliência.

Estudo de política de gate

Rodamos ablação sobre saídas semânticas:

baseline (sempre aceita semântica)
limiares de score
acordo lexical apenas
política mista (score ou acordo lexical)

Na nossa base, a política mista entregou o melhor tradeoff entre qualidade e robustez.

O limiar exato não é universal. A política precisa ser calibrada no seu corpus e reavaliada continuamente.

Recomendação prática

Se você usa retrieval com Sanity em produção:

Mantenha semântica como primária.
Adicione gate de confiança para aceitar contexto semântico.
Mantenha fallback lexical em modo híbrido.
Tenha seed de benchmark versionado com controles negativos.
Reexecute a avaliação após mudanças de conteúdo ou retrieval.

Esse processo separa demo convincente de sistema confiável.