15 fev, 2019
Os últimos resultados, anunciados em Dezembro na revista Science, são no mínimo espectaculares. Os criadores do AlphaZero 'ensinaram' ao computador as regras do Xadrez.
É relativamente fácil explicar estas regras: a informação em questão cabe numa página A4. Por exemplo, o Rei pode andar uma casa em qualquer sentido; a Rainha qualquer número de casas em qualquer sentido; o Bispo apenas em diagonal; etc.
Tendo ensinado as regras do Xadrez, incluindo o objectivo (cheque mate ao adversário), o AlphaZero entrou num processo do que se chama aprendizagem não supervisionada. Essencialmente, o que o computador faz é jogar muitos jogos consigo próprio; e, vendo o resultado de cada partida, aprende quais são as melhores estratégias.
Em certo sentido, esta é também a forma como os humanos aprendem:
tentativa após tentativa, aprendemos o que funciona e o que não funciona. E tentamos memorizar (o melhor possível) o que deu resultado e o que não deu. A diferença é que o AlphaZero o faz muito depressa.
Muito mais depressa.
Em poucas horas, começando do zero (literalmente), o AlphaZero já ganhava aos melhores jogadores humanos. Passados três dias, já ganhava ao StockFish, o computador de Xadrez mais poderoso do mundo.
Dizer que um computador ganha a um humano não tem nada de novo: já em
1997 o DeepBlue da IBM venceu Gary Kasparov, então o melhor jogador do mundo. O que há de novo é que o DeepBlue, tal como o StockFish, resultaram de anos e anos de aperfeiçoamento e aprendizagem
supervisionada: os programadores foram introduzindo milhares e milhares de jogos jogados por humanos, de forma que o computador aprenda o que funciona e o que não funciona. O que há de novo com o AlphaZero é que toda esta aprendizagem foi não supervisionada.
Não é possível dizer com certeza o que isto implicará para o futuro da inteligência artificial, mas não tenho dúvidas de que o dia 8 de Dezembro de 2018 ficará para a história como um momento crítico na evolução da inteligência artificial.