O padrão maior por trás de um resultado estranho
Uma observação anterior era que alguns modelos atravessavam filtros de citação/sobreposição lexical quase sem impacto.
No começo parecia algo específico de modelo. Com benchmark rotulado mais amplo, o padrão ficou claro:
- semântica ganha em qualidade no domínio
- aceitação sem confiança piora robustez
- sobreposição lexical não pode ser o sinal principal de confiança
Não é um detalhe de um modelo. É problema de sistema.
O que o benchmark deixou explícito
Com controles negativos, a busca semântica frequentemente retorna contexto plausível mesmo quando a query está fora do escopo do corpus.
Se esses hits são sempre aceitos, a camada de resposta recebe contexto inadequado, aumentando risco de respostas confiantes e mal ancoradas.
Isso explica por que filtros leves baseados em sobreposição lexical parecem inconsistentes:
- bloqueiam paráfrases corretas
- deixam passar trajetórias semanticamente plausíveis porém erradas
O que confiança deveria medir
Para aceitação de retrieval, o gate precisa priorizar suporte semântico, não só similaridade de superfície.
Opções práticas (da mais simples à mais forte):
- limiar de score semântico
- limiar de score com fallback por acordo lexical
- checagem de implicação por afirmação entre resposta e evidência
Na nossa ablação de políticas, uma política mista superou tanto o baseline de aceitação irrestrita quanto políticas rígidas de acordo lexical puro.
Posição de produção agora
A recomendação atual:
- recuperação semântica como primária
- gate de confiança antes de aceitar contexto semântico
- fallback lexical para comportamento conservador
- revalidação contínua por benchmark
Esse padrão preserva ganho de relevância e reduz falso positivo fora de domínio.
Por que isso importa operacionalmente
Sem gate de confiança, retrieval pode parecer ótimo em queries de demo e falhar com variação real de distribuição.
Com gate + seed com controles negativos, você passa a medir o tradeoff de forma explícita:
- qualidade em queries positivas
- falso positivo em negativas
- custo em token e latência por política
Isso é disciplina de produção, não preferência de modelo.