
A inteligência artificial generativa (GenAI), como a que movimenta o ChatGPT, encanta pela forma com que traduz comandos simples em respostas sofisticadas, bem estruturadas e, às vezes, surpreendentemente criativas. Por trás de cada resultado, no entanto, há um processo muito menos glamouroso: uma operação massiva de coleta, processamento e filtragem de conteúdo – o chamado data mining. Ou, em termos crus, um verdadeiro garimpo digital.
Nos últimos anos, modelos como o GPT?3, com seus 175 bilhões de parâmetros, foram alimentados por enormes volumes de material extraído da internet pública. Um único acervo – o Common Crawl – responde por cerca de 60% dos tokens utilizados no treinamento do GPT?3. Estamos falando de mais de 400 bilhões de unidades de linguagem vindas de páginas web. O Reddit aparece como uma das fontes mais expressivas. Também contribuíram WebText2 (22%), coleções de livros digitalizados (Books1 e Books2, com 16%) e a onipresente Wikipédia (3%).
Para agregar profundidade e especialização ao modelo, entram em cena coleções compostas por mais de 20 sub-bases que incluem desde artigos científicos até códigos hospedados no GitHub. Em arquiteturas multimodais, que trabalham simultaneamente com texto e imagem, o destaque vai para o LAION?400M, com 400 milhões de pares imagem-legenda filtrados por um sistema chamado CLIP.
A questão é que esse cardápio informacional tem prazo de validade. Primeiro porque muitas dessas fontes, embora tecnicamente acessíveis, estão protegidas por direitos autorais, o que tem gerado disputas jurídicas de grandes proporções. O caso mais emblemático veio à tona em dezembro de 2023, quando o The New York Times (NYT) processou a OpenAI e a Microsoft acusando ambas de utilizarem milhões de artigos do jornal sem autorização. Meses depois, a Justiça norte-americana rejeitou tentativas de arquivamento e permitiu que a maior parte do processo prosseguisse.
A situação ganhou contornos ainda mais delicados quando o NYT exigiu judicialmente que a OpenAI preservasse todas as conversas dos usuários, mesmo aquelas já excluídas, para uso como prova. A empresa reagiu com veemência, afirmando que tal exigência comprometeria a privacidade de milhões de pessoas.
Nesse contexto, uma realidade começa a se impor: o suprimento de fontes públicas adequadas para treinar a inteligência artificial (IA) está cada vez mais limitado. Pesquisas independentes, publicadas, inclusive, em plataformas como o arXiv, sugerem que a disponibilidade de conteúdo útil e juridicamente aproveitável pode se esgotar entre 2026 e 2027. Isso se deve à saturação dos acervos atuais, à repetição de materiais, ao crescimento de bloqueios via robots.txt e ao avanço de regulamentações que restringem a raspagem automatizada.
Com esse esgotamento no horizonte, empresas estão direcionando sua atenção para dois novos territórios: conteúdo interno e material gerado artificialmente. Informações privadas, como registros corporativos, históricos de atendimento, documentos confidenciais e sistemas legados, tornaram-se o novo ouro digital. Embora indisponíveis ao público, estão sob controle direto das organizações. Quando bem organizados, anonimizados e estruturados, podem abastecer modelos sob medida ajustados a contextos específicos e com menor exposição a riscos legais.
Já os sintéticos atuam como mecanismos capazes de gerar conteúdo artificial, embora realista, com base em padrões previamente aprendidos. Eles servem para expandir a base de treinamento sem infringir direitos autorais ou comprometer informações sensíveis. E, ao contrário do que o nome pode sugerir, não são “falsos”, mas variações estatísticas planejadas para manter a eficácia dos modelos.
Essa mudança de eixo, da coleta aberta para o uso controlado e a produção artificial, vai além do aspecto técnico. Trata-se de uma transformação estratégica. Na próxima fase da corrida pela IA, estarão à frente aqueles que souberem mapear, organizar e valorizar seus próprios ativos informacionais. Empresas, universidades e governos que ainda esperam que a internet siga suprindo essa demanda sozinha correm sério risco de obsolescência.
Para o usuário comum, essa disputa ainda passa despercebida. O que importa é a resposta final. Para quem constrói e alimenta essas máquinas, contudo, a escassez já é evidente. Em breve, não bastará fazer boas perguntas. Será fundamental ter os insumos certos e saber protegê-los.
Joel Backschat, Technical Fellow na FCamara.
Fonte: TI INSIDE Online - Leia mais