Joel Backschat › Diario Tech News

Grande garimpo digital: de onde vêm os dados que alimentam a IA generativa

Joel Backschat — Tue, 09 Sep 2025 20:09:45 +0000

A inteligência artificial generativa (GenAI), como a que movimenta o ChatGPT, encanta pela forma com que traduz comandos simples em respostas sofisticadas, bem estruturadas e, às vezes, surpreendentemente criativas. Por trás de cada resultado, no entanto, há um processo muito menos glamouroso: uma operação massiva de coleta, processamento e filtragem de conteúdo – o chamado data mining. Ou, em termos crus, um verdadeiro garimpo digital.

Nos últimos anos, modelos como o GPT?3, com seus 175 bilhões de parâmetros, foram alimentados por enormes volumes de material extraído da internet pública. Um único acervo – o Common Crawl – responde por cerca de 60% dos tokens utilizados no treinamento do GPT?3. Estamos falando de mais de 400 bilhões de unidades de linguagem vindas de páginas web. O Reddit aparece como uma das fontes mais expressivas. Também contribuíram WebText2 (22%), coleções de livros digitalizados (Books1 e Books2, com 16%) e a onipresente Wikipédia (3%).

Para agregar profundidade e especialização ao modelo, entram em cena coleções compostas por mais de 20 sub-bases que incluem desde artigos científicos até códigos hospedados no GitHub. Em arquiteturas multimodais, que trabalham simultaneamente com texto e imagem, o destaque vai para o LAION?400M, com 400 milhões de pares imagem-legenda filtrados por um sistema chamado CLIP.

A questão é que esse cardápio informacional tem prazo de validade. Primeiro porque muitas dessas fontes, embora tecnicamente acessíveis, estão protegidas por direitos autorais, o que tem gerado disputas jurídicas de grandes proporções. O caso mais emblemático veio à tona em dezembro de 2023, quando o The New York Times (NYT) processou a OpenAI e a Microsoft acusando ambas de utilizarem milhões de artigos do jornal sem autorização. Meses depois, a Justiça norte-americana rejeitou tentativas de arquivamento e permitiu que a maior parte do processo prosseguisse.

A situação ganhou contornos ainda mais delicados quando o NYT exigiu judicialmente que a OpenAI preservasse todas as conversas dos usuários, mesmo aquelas já excluídas, para uso como prova. A empresa reagiu com veemência, afirmando que tal exigência comprometeria a privacidade de milhões de pessoas.

Nesse contexto, uma realidade começa a se impor: o suprimento de fontes públicas adequadas para treinar a inteligência artificial (IA) está cada vez mais limitado. Pesquisas independentes, publicadas, inclusive, em plataformas como o arXiv, sugerem que a disponibilidade de conteúdo útil e juridicamente aproveitável pode se esgotar entre 2026 e 2027. Isso se deve à saturação dos acervos atuais, à repetição de materiais, ao crescimento de bloqueios via robots.txt e ao avanço de regulamentações que restringem a raspagem automatizada.

Com esse esgotamento no horizonte, empresas estão direcionando sua atenção para dois novos territórios: conteúdo interno e material gerado artificialmente. Informações privadas, como registros corporativos, históricos de atendimento, documentos confidenciais e sistemas legados, tornaram-se o novo ouro digital. Embora indisponíveis ao público, estão sob controle direto das organizações. Quando bem organizados, anonimizados e estruturados, podem abastecer modelos sob medida ajustados a contextos específicos e com menor exposição a riscos legais.

Já os sintéticos atuam como mecanismos capazes de gerar conteúdo artificial, embora realista, com base em padrões previamente aprendidos. Eles servem para expandir a base de treinamento sem infringir direitos autorais ou comprometer informações sensíveis. E, ao contrário do que o nome pode sugerir, não são “falsos”, mas variações estatísticas planejadas para manter a eficácia dos modelos.

Essa mudança de eixo, da coleta aberta para o uso controlado e a produção artificial, vai além do aspecto técnico. Trata-se de uma transformação estratégica. Na próxima fase da corrida pela IA, estarão à frente aqueles que souberem mapear, organizar e valorizar seus próprios ativos informacionais. Empresas, universidades e governos que ainda esperam que a internet siga suprindo essa demanda sozinha correm sério risco de obsolescência.

Para o usuário comum, essa disputa ainda passa despercebida. O que importa é a resposta final. Para quem constrói e alimenta essas máquinas, contudo, a escassez já é evidente. Em breve, não bastará fazer boas perguntas. Será fundamental ter os insumos certos e saber protegê-los.

Joel Backschat, Technical Fellow na FCamara.

Fonte: TI INSIDE Online - Leia mais

The post Grande garimpo digital: de onde vêm os dados que alimentam a IA generativa first appeared on Diario Tech News.

Por que agentes de IA precisam entender o contexto para funcionar de verdade?

Joel Backschat — Fri, 01 Aug 2025 18:36:28 +0000

Nos últimos anos, vimos um salto impressionante na capacidade dos modelos de linguagem. No entanto, à medida que as empresas começam a explorar o uso de agentes baseados em inteligência artificial (IA) para tarefas mais sofisticadas, fica claro que não basta treinar essa tecnologia e esperar que ela entregue resultados com comandos isolados. A chave para uma performance realmente eficaz está na forma como alimentamos esses sistemas com informações valiosas ao longo do tempo.

Diferentemente dos chatbots tradicionais, que se limitam a responder apenas à última pergunta, essas soluções consideram todo o contexto das interações — desde conversas recentes até o histórico do usuário, as particularidades do ambiente e até preferências pessoais. Isso permite que aprendam com o uso, ajustem suas respostas de forma contínua, evitem repetições e tomem decisões mais alinhadas à realidade de quem as utiliza.

Na prática, isso envolve três grandes pilares. O primeiro é o aprofundamento progressivo, no qual os assistentes acumulam conhecimento conforme a conversa avança. Desse modo, passam a entender melhor o tema em discussão, assim como o perfil de quem está do outro lado. O segundo é a memória ativa, que permite ao sistema reter preferências, registros críticos e decisões anteriores sem a necessidade de repetir as mesmas perguntas. O terceiro é a capacidade de perceber mudanças no entorno – como horário, localização ou status de uma tarefa – e ajustar seu comportamento de forma automática.

Veja também: Executivas do Bradesco falam sobre como acelerar a inovação com IA e a importância da infraestrutura na estratégia digital

Esses avanços tornam a interação mais fluida, natural e eficaz na maior parte do tempo. Embora em alguns casos ainda seja necessário repetir informações, o sistema tende a reduzir esse esforço, oferecendo respostas menos genéricas e mais contextualizadas. Na prática, isso se traduz em mais agilidade na resolução de problemas, maior confiança por parte do usuário e uma experiência tecnológica mais intuitiva e menos frustrante.

Para que essa lógica funcione bem, é fundamental planejar como o sistema será estruturado e gerenciado. O primeiro passo é definir quais informações devem ser mantidas: interações passadas, metas do usuário e dados de perfil, entre outras. Depois, é crucial distinguir o que será armazenado de forma permanente, como preferências e configurações ou o andamento de uma atividade.

Também é necessário contar com mecanismos capazes de resgatar essas referências de forma ágil, como bancos de memória especializados, além de garantir que o agente possa atualizar as informações em tempo real sem depender de comandos manuais. Para evitar sobrecarga, recomenda-se o uso de técnicas de resumo inteligente, que mantêm somente o que é mais imprescindível em cada momento.

Essa abordagem já é aplicada em diferentes áreas. Assistentes pessoais, por exemplo, podem lembrar eventos significativos e adaptar sugestões com base nos hábitos do usuário. Chatbots de atendimento conseguem acessar o histórico completo de uma reclamação, agilizando a resolução. Ferramentas de produtividade, como agendas e gerenciadores de tarefas, passam a reconhecer as prioridades dos projetos e ajudam a manter o foco no que realmente importa.

Mais do que uma questão técnica, esse modelo de construção é uma decisão estratégica. Ele é o que diferencia um assistente genérico de uma solução que realmente entrega valor e resolve problemas de forma personalizada. Para quem está construindo experiências com IA, entender e aplicar essa lógica pode ser o divisor de águas entre um experimento que não engaja e uma ferramenta que revoluciona a operação de uma companhia.

À proporção que essas soluções evoluem, vale lembrar: o modelo de linguagem é importante, mas é a capacidade de compreender o momento, o histórico e os objetivos do usuário que transforma essa tecnologia em algo realmente útil e relevante. É por isso que desenvolver agentes com esse nível de inteligência prática se torna um passo essencial para qualquer organização que deseja dispor da IA de forma consistente e com impacto real.

Joel Backschat, Technical Fellow na FCamara.

Inscreva-se em nosso canal do Whatsapp e tenha acesso as principais notícias do mercado.

Fonte: TI INSIDE Online - Leia mais

The post Por que agentes de IA precisam entender o contexto para funcionar de verdade? first appeared on Diario Tech News.