O padrão maior por trás de um resultado estranho

Uma observação anterior era que alguns modelos atravessavam filtros de citação/sobreposição lexical quase sem impacto.

No começo parecia algo específico de modelo. Com benchmark rotulado mais amplo, o padrão ficou claro:

  • semântica ganha em qualidade no domínio
  • aceitação sem confiança piora robustez
  • sobreposição lexical não pode ser o sinal principal de confiança

Não é um detalhe de um modelo. É problema de sistema.


O que o benchmark deixou explícito

Com controles negativos, a busca semântica frequentemente retorna contexto plausível mesmo quando a query está fora do escopo do corpus.

Se esses hits são sempre aceitos, a camada de resposta recebe contexto inadequado, aumentando risco de respostas confiantes e mal ancoradas.

Isso explica por que filtros leves baseados em sobreposição lexical parecem inconsistentes:

  • bloqueiam paráfrases corretas
  • deixam passar trajetórias semanticamente plausíveis porém erradas

O que confiança deveria medir

Para aceitação de retrieval, o gate precisa priorizar suporte semântico, não só similaridade de superfície.

Opções práticas (da mais simples à mais forte):

  1. limiar de score semântico
  2. limiar de score com fallback por acordo lexical
  3. checagem de implicação por afirmação entre resposta e evidência

Na nossa ablação de políticas, uma política mista superou tanto o baseline de aceitação irrestrita quanto políticas rígidas de acordo lexical puro.


Posição de produção agora

A recomendação atual:

  1. recuperação semântica como primária
  2. gate de confiança antes de aceitar contexto semântico
  3. fallback lexical para comportamento conservador
  4. revalidação contínua por benchmark

Esse padrão preserva ganho de relevância e reduz falso positivo fora de domínio.


Por que isso importa operacionalmente

Sem gate de confiança, retrieval pode parecer ótimo em queries de demo e falhar com variação real de distribuição.

Com gate + seed com controles negativos, você passa a medir o tradeoff de forma explícita:

  • qualidade em queries positivas
  • falso positivo em negativas
  • custo em token e latência por política

Isso é disciplina de produção, não preferência de modelo.