Por que revisitamos o experimento

O experimento anterior avaliava gate pós-geração com sobreposição lexical e validação de citações.

A direção estava certa: ancoragem lexical é um sinal fraco. Mas o benchmark novo deixou a conclusão muito mais clara:

  • semântica melhora relevância no domínio
  • semântica sem política de confiança pode super-recuperar fora de domínio
  • lexical continua útil como fallback seletivo, não como motor principal de relevância

Este texto reescreve a interpretação com foco em comportamento de sistema, não apenas no filtro de resposta.


Desenho experimental atualizado

Saímos de prompts ad-hoc para seed versionado, rotulado e reprodutível.

Método resumido:

  • seed versionado com queries rotuladas
  • execução A/B controlada (semântica vs lexical)
  • ablação de políticas de confiança sobre as saídas semânticas

O que foi adicionado:

  • controles negativos explícitos (fora de domínio)
  • buckets por tipo de query (keyword, paráfrase, estresse semântico)
  • métricas de IR no nível de retrieval (Precision@k, Recall@k, MRR, nDCG)
  • métricas de robustez (falso positivo em negativos)

O que aprendemos

1. Semântica ganha em qualidade no domínio

Em queries positivas, a recuperação semântica superou a lexical nas métricas de relevância.

2. Semântica pode falhar em robustez

Sem gate, a recuperação semântica aceitou queries fora de domínio com frequência alta demais. Esse é o principal risco de produção.

3. Lexical não basta, mas ajuda

Lexical tem recall menor, porém é mais conservadora e ajuda a reduzir aceitações ruins em cenários ambíguos/fora de domínio. Como fallback, aumenta resiliência.


Estudo de política de gate

Rodamos ablação sobre saídas semânticas:

  • baseline (sempre aceita semântica)
  • limiares de score
  • acordo lexical apenas
  • política mista (score ou acordo lexical)

Na nossa base, a política mista entregou o melhor tradeoff entre qualidade e robustez.

O limiar exato não é universal. A política precisa ser calibrada no seu corpus e reavaliada continuamente.


Recomendação prática

Se você usa retrieval com Sanity em produção:

  1. Mantenha semântica como primária.
  2. Adicione gate de confiança para aceitar contexto semântico.
  3. Mantenha fallback lexical em modo híbrido.
  4. Tenha seed de benchmark versionado com controles negativos.
  5. Reexecute a avaliação após mudanças de conteúdo ou retrieval.

Esse processo separa demo convincente de sistema confiável.