A Meta lançou o Meta Video Joint Embedding Predictive Architecture 2 (V-JEPA 2), um modelo treinado em vídeo que permite a compreensão e previsão de última geração no mundo real, bem como planejamento zero-shot e controle de robôs em novos ambientes. O desenvolvimento de IA chegou a um ponto em que é tanto um desafio tecnológico quanto científico, pois ainda não se sabe como construir sistemas verdadeiramente inteligentes.
Humanos e animais navegam pelo mundo criando modelos mentais da realidade, permitindo planejar a execução de tarefas desconhecidas e adaptar-se eficientemente ao mundo em constante mudança. E se a IA pudesse desenvolver esse tipo de senso comum? Um modelo de mundo é uma cópia digital abstrata da realidade que a IA pode usar como referência para entender o mundo e prever as consequências de suas ações.
Essas capacidades podem ser amplamente aplicadas, desde ajudar pessoas com deficiência visual a navegar pelo mundo de forma eficaz, até tornar a próxima era da robótica uma realidade, permitindo que agentes de IA do mundo real auxiliem em tarefas físicas sem a necessidade de grandes quantidades de dados de treinamento robótico.
A Meta também lançou três novos benchmarks para avaliar quão bem os modelos existentes podem raciocinar sobre o mundo físico a partir de vídeos, medindo a capacidade dos modelos de distinguir entre cenários fisicamente plausíveis e implausíveis (IntPhys 2), as habilidades de compreensão física de modelos de vídeo-linguagem (Minimal Video Pairs) e a capacidade de modelos de vídeo-linguagem de responder a perguntas relacionadas a causa e efeito físico (CausalVQA).
Você pode encontrar detalhes técnicos adicionais sobre esses lançamentos aqui.
Fonte: TI INSIDE Online - Leia mais