Como Funciona a Pesquisa Vetorial nas Fotografias

TIME&SPACE · Tecnologia de Eventos

A pesquisa vetorial é como uma selfie encontra as fotografias certas em menos de um segundo. Eis o que acontece entre a leitura e a galeria.

Pesquisa vetorial a associar a selfie de um convidado às fotografias de evento num recinto cheio

Um convidado lê um código QR, tira uma selfie e vê apenas as fotografias em que aparece. Parece instantâneo e um pouco mágico. Por detrás desse momento está uma tecnologia específica a fazer o trabalho pesado: a pesquisa vetorial. É a razão pela qual um único rosto pode ser comparado com dezenas de milhares de fotografias em muito menos de um segundo, sem que ninguém associe um nome a uma única imagem.

A pesquisa vetorial é um método de encontrar os itens mais próximos num conjunto de dados comparando representações numéricas do seu significado, em vez de fazer corresponder texto exato ou palavras-chave. Para fotografias de eventos, transforma cada rosto numa lista de números e depois encontra os rostos mais próximos da selfie de um convidado. Este guia explica como funciona esse processo num evento, porque é rápido e o que o torna preciso o suficiente para confiar.

De um Rosto a um Vetor

O primeiro passo nada tem a ver com pesquisar. Tem a ver com transformar um rosto em algo que um computador consiga comparar.

Quando uma fotografia é carregada, um modelo de reconhecimento facial analisa-a, localiza cada rosto e converte cada um numa representação numérica chamada embedding. Um embedding é uma lista de números de comprimento fixo, muitas vezes 512, que codifica a geometria de um rosto: o espaçamento dos olhos, a forma do maxilar, a relação entre dezenas de pontos faciais. Duas fotografias da mesma pessoa produzem dois embeddings que ficam muito próximos nesse espaço de 512 dimensões. Duas pessoas diferentes produzem embeddings que ficam afastados.

A TIME&SPACE usa um modelo baseado em ArcFace do projeto de código aberto InsightFace para gerar estes embeddings de 512 números. O mesmo modelo é aplicado à selfie do convidado no momento da leitura, para que a selfie e as fotografias sejam descritas exatamente na mesma linguagem. Este é o detalhe crucial. Não é possível comparar um rosto a um rosto diretamente, mas é possível comparar duas listas de números de forma muito eficiente.

Porque se Chama Vetor

Uma lista de 512 números é, matematicamente, um vetor: um único ponto num espaço com 512 dimensões. As pessoas não conseguem imaginar 512 dimensões, mas a lógica é a mesma que em duas. Num mapa plano, duas localidades estão próximas se as suas coordenadas forem semelhantes. Num espaço de embeddings faciais, dois rostos estão próximos se as suas 512 coordenadas forem semelhantes.

É essa proximidade que o sistema mede. A medida mais comum para embeddings faciais é a similaridade do cosseno, que compara o ângulo entre dois vetores em vez da distância em bruto entre eles. Quando dois embeddings apontam quase na mesma direção, a similaridade do cosseno aproxima-se de um, e o sistema trata-os como a mesma pessoa. Quando apontam em direções diferentes, a pontuação desce, e o sistema trata-os como pessoas diferentes. Associar rostos passa a ser um problema de geometria, e a geometria é algo que uma base de dados consegue resolver em escala.

Pesquisar Sem Verificar Todas as Fotografias

É aqui que está a velocidade. Um grande festival pode gerar 40.000 fotografias e 120.000 rostos individuais. Comparar a selfie de um convidado com cada um desses rostos, um a um, funcionaria, mas seria lento e não escalaria.

As bases de dados vetoriais evitam a abordagem de força bruta usando um índice construído para pesquisa do vizinho mais próximo. Em vez de analisar cada rosto, o índice agrupa antecipadamente embeddings semelhantes, para que uma consulta só tenha de procurar nas vizinhanças que importam. A TIME&SPACE armazena os seus embeddings em PostgreSQL usando a extensão pgvector, que acrescenta um tipo de coluna vetorial nativo e indexação aproximada do vizinho mais próximo diretamente à base de dados. O vetor da selfie entra, o índice limita a pesquisa aos candidatos mais promissores, e as correspondências mais próximas regressam em milissegundos.

O compromisso está na palavra "aproximada". Uma pesquisa exata verifica tudo e é perfeitamente minuciosa mas lenta. Uma pesquisa aproximada é muito mais rápida e, bem afinada, devolve as mesmas correspondências que interessam a um convidado. Para a entrega de fotografias de eventos, onde o objetivo é apresentar as fotografias de uma pessoa em tempo real num recinto ao vivo, esse compromisso vale bem a pena. Os lançamentos recentes do pgvector, incluindo a atualização 0.8.0, melhoraram tanto a velocidade como a qualidade desta indexação, razão pela qual uma abordagem nativa à base de dados resiste agora à escala de um festival.

O Limiar Decide o que Conta como Correspondência

Encontrar os rostos mais próximos é apenas metade do trabalho. O sistema ainda tem de decidir quais desses rostos próximos são de facto a mesma pessoa e quais são apenas desconhecidos parecidos. Essa decisão resume-se a um único número afinado: o limiar.

O limiar é a pontuação mínima de similaridade que um candidato tem de ultrapassar para ser mostrado ao convidado. Defina-o demasiado baixo e a galeria enche-se de quase-correspondências: pessoas que partilham um penteado ou a forma do maxilar. Defina-o demasiado alto e o sistema rejeita fotografias legítimas em que o convidado está ligeiramente virado para o lado ou iluminado de forma diferente da selfie. O limiar certo situa-se no ponto em que quase todas as fotografias reais passam e quase nenhum desconhecido entra. É o mesmo equilíbrio que abordamos em detalhe no nosso guia sobre como funciona a precisão do reconhecimento facial.

A iluminação, o ângulo, o desfoque de movimento e os rostos parciais empurram todos a pontuação de uma correspondência real para baixo, razão pela qual as condições de um evento são mais difíceis do que uma fotografia de passaporte. Um sistema de pesquisa vetorial bem afinado tem isto em conta combinando um limiar sensato com uma nova passagem de correspondência que apanha os rostos que a primeira leitura falhou.

Porque a Pesquisa Vetorial Supera as Etiquetas e as Pastas

As formas mais antigas de entregar fotografias de eventos exigem todas trabalho humano. Alguém tem de etiquetar nomes, organizar imagens em pastas ou pedir aos convidados que percorram milhares de imagens à espera de se encontrarem. A pesquisa vetorial elimina esse trabalho por completo. Ninguém etiqueta um único rosto. A própria selfie do convidado é a única entrada de que o sistema precisa, e produz uma galeria pessoal automaticamente.

É também isso que a torna privada por princípio. O sistema nunca precisa do nome, do email ou do perfil social de um convidado para encontrar as suas fotografias. Precisa apenas de uma selfie momentânea, que é convertida num vetor, usada para a correspondência e depois tratada segundo regras de retenção rigorosas. Para uma análise mais aprofundada do lado virado para o convidado, veja como o reconhecimento facial encontra as suas fotografias de evento. Se está a planear a entrega para o seu próprio evento, o nosso guia para organizadores acompanha toda a configuração, e a página de preços cobre os planos por evento.

O que Isto Significa para o Seu Evento

Para um organizador, a tecnologia deve ser invisível. O que importa é o resultado: os convidados encontram as suas fotografias em segundos, a galeria parece pessoal, e ninguém passa uma noite a etiquetar imagens. A pesquisa vetorial é o motor que torna esse resultado possível em qualquer escala, de um jantar empresarial de 200 pessoas a um festival de 15.000.

Os números por detrás dela são abstratos, mas a experiência não é. Um convidado tira uma selfie e sai com todas as fotografias de si próprio. É esse o objetivo, e a pesquisa vetorial é como acontece.

Perguntas Frequentes

O que é a pesquisa vetorial em termos simples? A pesquisa vetorial é uma forma de encontrar os itens mais semelhantes numa grande coleção comparando impressões numéricas do seu conteúdo. Para fotografias de eventos, cada rosto torna-se uma lista de números, e o sistema encontra os rostos cujos números estão mais próximos da selfie de um convidado.

Quão rápida é a pesquisa vetorial para fotografias de eventos? Uma pesquisa vetorial afinada devolve correspondências em milissegundos, mesmo entre dezenas de milhares de fotografias. A velocidade vem de um índice que limita a pesquisa aos candidatos prováveis em vez de comparar cada rosto um a um.

A pesquisa vetorial é suficientemente precisa para grandes eventos? Sim, quando combinada com um bom modelo facial e um limiar de similaridade corretamente afinado. O limiar define o grau de rigor de uma correspondência, equilibrando o risco de mostrar desconhecidos com o risco de perder fotografias legítimas.

A pesquisa vetorial guarda o meu rosto permanentemente? Não. O embedding da selfie é usado para a correspondência e depois tratado segundo regras de retenção rigorosas. O sistema não precisa de nome, email ou conta para encontrar as fotografias de um convidado, o que mantém o processo privado por princípio.

Que tecnologia usa a TIME&SPACE para a pesquisa vetorial? A TIME&SPACE gera embeddings faciais de 512 dimensões com um modelo ArcFace e armazena-os em PostgreSQL usando a extensão pgvector, que fornece armazenamento vetorial nativo e indexação do vizinho mais próximo dentro da base de dados.

TIME&SPACE

Feito para organizadores de eventos. A configuração demora menos de dez minutos.

Comece a Entregar Fotografias

Micael

Fundador da TIME&SPACE

PartilharLinkedIn X / Twitter