O que é Deep Learning AF: como funciona o foco automático alimentado por AI da Canon?

A Canon fez muito barulho com seu novo sistema Deep Learning AF, que está no coração da mais recente câmera profissional carro-chefe do fabricante. Parece incrivelmente inteligente, mas há muitas perguntas - o que é Deep Learning? Quem ensina? O sistema aprende enquanto você atira? É realmente inteligência artificial em uma câmera? Isso realmente torna o foco automático melhor?

Se você leu nossa análise da Canon EOS-1D X Mark III, você sabe que a resposta à última pergunta é um retumbante sim. Quanto às respostas às outras perguntas sobre o Deep Learning AF, pegue uma bebida e um lanche e continue lendo …

A mecânica de foco automático da Canon EOS-1D X Mark III é incrivelmente inteligente, suportando dois sistemas AF individuais. O primeiro é o sistema óptico, que dispara 16 quadros por segundo através do visor, usando um sensor de medição de 400.000 pixels em conjunto com um processador Digic 8 dedicado, para AF de 191 pontos capaz de rastreamento de rosto.

Depois, há o sistema Live View, capaz de gravar 20 quadros por segundo, empregando todos os 20,1 milhões de pixels do sensor de imagem combinado com o novo processador Digic X, para 3.869 pontos CMOS Dual Pixel que podem realizar AF com detecção de olho total.

Alimentando esses dois sistemas está a tecnologia EOS iTR AFX central da Canon - a mais recente iteração de seu foco automático de rastreamento e reconhecimento inteligente, que estreou na EOS-1D X original (e posteriormente abriu caminho para a família 7D Mark II e 5D). E enterrado em seu circuito está o algoritmo de aprendizado profundo.

Aprendizado profundo NÃO é o mesmo que IA

Em primeiro lugar, é importante esclarecer que o Deep Learning não deve ser confundido com inteligência artificial (IA). Um sistema de IA é algo que está em constante desenvolvimento. Aprendizado profundo, ou aprendizado de máquina, é um subconjunto da IA.

Ao contrário da verdadeira IA, o Deep Learning é um processo fechado. É um algoritmo de pré-montagem que permite que a arquitetura da câmera essencialmente aprenda a si mesma, muito mais rápido do que poderia ser programado manualmente por engenheiros humanos. Assim que esse aprendizado for concluído, ele é bloqueado e carregado na câmera.

A partir desse ponto, não é mais possível aprender; apesar do nome - e Deep Learning é o nome da tecnologia, não uma descrição do processo - a câmera não está aprendendo constantemente e não ficará "melhor" quanto mais você fotografar (na verdade, um verdadeiro sistema de IA aprenderia tantos de seus maus hábitos como se fossem seus bons!).

"Foi ensinado", explica Mike Burnhill, gerente de suporte técnico da Canon Europa. "Você o coloca em um computador, ele cria o algoritmo que é carregado na câmera. Portanto, é diferente da IA ​​- a IA é um aprendizado contínuo; o aprendizado profundo é basicamente, ele ensina por si mesmo e fornece um resultado final que é carregado na câmera. "

O que levanta a questão: com tantas empresas gritando sobre recursos baseados em IA, uma câmera é realmente capaz de suportar inteligência artificial?

“O poder de processamento para fazer IA verdadeira não é viável em uma câmera”, diz Burnhill. "Se você quiser fazer isso, existem telefones - mas os dados não estão no seu telefone, mas no Vale do Silício. É onde está o sistema de IA. É só que sua conexão de telefone está conectada a ele - não está aqui, está lá (em a nuvem), porque você precisa de um servidor. Poderíamos fazer uma câmera, mas você estaria carregando uma mala de voo gigante com você o tempo todo. "

Como o Deep Learning ensina a si mesmo?

Portanto, o algoritmo de aprendizado profundo ensina a si mesmo - mas de onde ele realmente aprende? A resposta, simplesmente, é 'do melhor'.

“A Canon trabalhou com nossas agências”, Burnhill nos conta. "Recebemos basicamente acesso a todo o banco de dados de imagens de fotografia esportiva, de todas as principais agências, trabalhamos com nossos embaixadores que fotografam esportes e eles forneceram suas imagens de diferentes assuntos, e isso nos permitiu ensinar a este sistema AF como reconhecer pessoas nos esportes. "

Esportes, obviamente, é o método de ensino direcionado porque a Canon EOS-1D X Mark III é principalmente uma câmera de esportes. O problema é que, seja um jogador de basquete de costas para a câmera, um esquiador usando óculos de proteção ou um piloto de Fórmula 1 usando um capacete, as pessoas nos esportes frequentemente têm seus rostos obscurecidos - o que significa que o AF tradicional de detecção de rosto ou olho não t funcionar, e a câmera irá travar em coisas como os números no uniforme de um jogador.

Ao dar ao algoritmo de aprendizado profundo acesso a uma vasta biblioteca de imagens, de tudo, desde ginastas de cabeça para baixo a jogadores de hóquei usando protetores e capacetes, ele é capaz de aprender e diferenciar a forma humana em uma variedade infinita de situações - e, em última análise, é capaz para realizar esta 'detecção de cabeça', de modo que mesmo que o rosto da pessoa não seja visível, a cabeça seja sempre o ponto principal de foco.

"O aprendizado profundo consiste basicamente em imagens, você cria um conjunto de regras para ele aprender, e então ele vai e cria seu próprio algoritmo baseado", continua Burnhill. “Então você define os parâmetros de como a pessoa seria, você pensa 'Aqui está a pessoa', então ele analisa todas as imagens das pessoas e diz: 'Isso é uma pessoa', 'Isso é uma pessoa'. passa por milhões de imagens em um período de tempo e cria esse banco de dados e aprende por si mesmo. "

Na verdade, o algoritmo cria dois bancos de dados - um para fazer a manutenção do sistema AF do visor óptico e medição, usando Digic 8, e um para fazer a manutenção do sistema AF Live View que usa Digic X. Uma vez que é o Digic X que faz todos os cálculos para rastreamento da cabeça, uma vez que o algoritmo AF detecta uma pessoa no quadro, tudo é transferido para o novo processador.

“Assim que você consegue uma pessoa, você tem o processamento duplo em andamento”, diz Burnhill. "Há dois bancos de dados aqui, porque a entrada de ambos os sensores será um pouco diferente, então como ela é reconhecida será um pouco diferente, então esses são subconjuntos do mesmo algoritmo. Os dados principais para ambos são os mesmos, é apenas como será reconhecido e os dados corretos aplicados a ele. "

Se não consegue aprender coisas novas … e quanto a AF animal?

Claro, a Canon EOS-1D X Mark III não é apenas uma câmera esportiva - seu outro público-alvo são os atiradores de vida selvagem. No entanto, a câmera não possui capacidade de foco automático animal, e estabelecemos que o Deep Learning não pode realmente aprender nenhum truque novo depois de inserido na câmera. Então é isso? Com toda essa nova tecnologia sofisticada, a câmera não vai mesmo focar no cachorro da família?

É verdade que, no momento, a câmera não possui AF de animal (ou olho de animal). "Basicamente, estamos nos concentrando nas pessoas para começar a fazer esse tipo de algoritmo funcionar primeiro", responde Burnhill. "É por isso que meio que nos concentramos no esporte, porque esse é um parâmetro definido e podemos ensiná-lo em um determinado período de tempo,"

A resposta, então, está no firmware. Burnhill confirmou que há potencial para a câmera passar por mais Deep Learning, para coisas como pássaros e animais selvagens, e para que este algoritmo atualizado seja disseminado para os usuários por meio de atualizações de firmware - embora não haja planos concretos para anunciar.

"Estaremos desenvolvendo o tempo todo, então no momento ainda não está decidido como e para onde iremos. Mas a equipe de desenvolvimento está indo e olhando para outras fotografias de animais - percebemos que há uma série de campos, mas obviamente o grande o foco desta câmera é o esporte e depois a vida selvagem e, obviamente, com Tóquio 2022-2023, essa era a prioridade. "

É um ponto justo; se a Canon esperasse que Deep Learning aprendesse tudo, demoraria mais para a câmera ser lançada. E embora fabricantes como a Sony ostentem algum AF animal seletivo em suas câmeras, Burnhill observa que a Canon prefere lançar uma solução AF animal completa em vez de uma seletiva, fragmentada. E é aqui que o Deep Learning se tornará inestimável.

"O problema é com a vida selvagem, há muitos animais diferentes - você obviamente tem predadores com os olhos na frente, e então você tem (olhos) de coelhos ao lado, você tem cobras, você tem pássaros … não há nenhum sistema que reconhece os rostos de todos os animais. E é aí que você entra em todo esse Aprendizado Profundo, de ensinar o sistema a reconhecer essas coisas complexas. "

Portanto, embora sua Sony possa rastrear seu cachorro ou gato, mas não uma salamandra ou um flamingo, a Canon deseja produzir uma câmera que faça tudo ou nada. "Se fôssemos fazer isso, gostaríamos de fazer com um espectro tão amplo - não queremos fazer uma câmera amigável para cães e gatos, queremos fazer uma câmera amigável para animais que funciona para a ampla gama de animais que (profissionais) fariam. "

Análise da Canon EOS-1D X Mark III
Como a Canon fez a DSLR mais rápida de todos os tempos? Ao redesenhar a caixa do espelho
102 atualizações na Canon EOS-1D X Mark III

Artigos interessantes...