Uma estratégia para resolver problemas complexos é dividi-los em vários desafios mais simples. Foi este o caminho seguido por uma equipa de investigadores da Universidade Sun Yat-sem, na China, no desenvolvimento de um algoritmo de leitura gestual para a interação homem-máquina – uma solução que a ficção já encontrou há várias décadas (basta pensar em Tom Cruise no filme Minority Report a ‘falar’ com o seu computador usando exclusivamente as mãos).
Na vida real, as principais dificuldades estão relacionadas com a grande complexidade computacional, baixa velocidade, baixa precisão, poucos gestos reconhecidos, elenca o site Eurekalert onde está divulgada a metodologia usada pelos cientistas chineses.
A primeira coisa a fazer foi ensinar o algoritmo a reconhecer diferentes tipos de mãos, sendo estas classificadas em três tipos: magra, média e larga, com base em três medidas que traduzem a relação entre a largura da palma, comprimento da palma e comprimento do dedo. A partir daqui todas as etapas subsequentes no processo de reconhecimento dos gestos são guiadas pela comparação entre o gesto de entrada e amostras armazenadas do mesmo tipo de mão. “Algoritmos simples tradicionais tendem a sofrer de baixas taxas de reconhecimento porque não podem lidar com diferentes tipos de mão. Ao classificar primeiro o gesto de entrada por tipo de mão e, em seguida, usar bibliotecas de amostra que correspondem a esse tipo, podemos melhorar a taxa de reconhecimento geral com um consumo quase insignificante de recursos”, explica um dos investigadores responsáveis pelo trabalho, publicado na revista científica Journal of Eletronic Imaging, Zhiyi Yu.
Outro aspeto importante do novo método é a utilização de um atalho que permite recorrer a um pré-reconhecimento. Embora o algoritmo de reconhecimento seja capaz de identificar um gesto de entrada entre nove gestos possíveis, comparar todos os recursos do gesto de entrada com os das amostras armazenadas para todos os gestos possíveis seria muito demorado. Para resolver esse problema, a etapa de pré-reconhecimento calcula uma proporção da área da mão para selecionar os três gestos mais prováveis dos nove possíveis. Esta solução simples é suficiente para reduzir o número de gestos candidatos a três, sendo então o gesto final decidido a partir de uma ferramenta muito mais complexa e de alta precisão, baseada na metodologia conhecida como “momentos invariáveis de Hu”. “A etapa de pré-reconhecimento de gestos não apenas reduz o número de cálculos e recursos de hardware necessários, como também melhora a velocidade de reconhecimento sem comprometer a precisão”, explica.
Para construir o algoritmo a equipa recorreu a 40 voluntários que fizeram os nove gestos com as mãos, várias vezes, para construir a biblioteca de amostras, e a outros 40 voluntários para determinar a precisão do sistema, que está neste momento nos 93 por cento. Os passos seguintes serão melhorar a precisão em ambientes mal iluminados e aumentar quantidade de gestos reconhecíveis.