📥 [Aviso de Coleta] Treinando o TabLM: O Desafio dos 100M em PT-BR - Criando uma IA de 100M com o "DNA" do TabNews 🧠 [Pesquisa e Dataset]

Olá, pessoal do TabNews!

Estou escrevendo para compartilhar uma iniciativa da Crom AI Research, que toca em um ponto sensível da nossa área: a dependência de modelos de IA gigantescos e estrangeiros.

Formulário: https://docs.google.com/forms/d/e/1FAIpQLSeZ28dYyI4uste78_T6BecokC4Enlpyz2nZkJtSElG9CRLMIQ/viewform

🎯 O Problema: O "Gap" do Português em Modelos Pequenos

Se você já tentou rodar um modelo de IA localmente no seu computador, sabe que modelos abaixo de 1B de parâmetros costumam ser "burros" em Português. Eles alucinam, misturam idiomas ou simplesmente não entendem comandos simples (Instruct).

Nosso objetivo é quebrar essa barreira.

Queremos explorar o treinamento de modelos Instruct/Chat com menos de 100M de parâmetros que sejam genuinamente proficientes em PT-BR técnico.

🧠 Por que o TabNews?

O TabNews não é apenas um site de notícias; é uma das bases de dados mais limpas e ricas em dialeto técnico brasileiro. Para um modelo minúsculo , a qualidade do dado vale mais que a quantidade.

Queremos que o TabLM aprenda a:

  1. Chat: Conversar como um desenvolvedor sênior brasileiro.
  2. Search: Permitir buscas semânticas profundas dentro do ecossistema de conteúdo local.
  3. Instruct: Seguir comandos técnicos simples sem precisar de 16GB de VRAM.

📊 O Dataset: crom-tabnews-db

Para tornar isso realidade, estamos consolidando um dataset curado.

Transparência e Ética:

  • Licenciamento ODC-By: O dataset será aberto sob a Open Data Commons Attribution. Isso protege a autoria: quem usar, terá que dar o crédito à fonte original.
  • Foco em Pesquisa: Não é um produto comercial, é um experimento de Soberania Digital.
  • Saneamento: Faremos o possível para remover dados sensíveis (tokens, chaves, e-mails) que usuários possam ter postado por acidente.

🛡️ Cláusula de Respeito (Opt-Out)

Respeitamos a propriedade intelectual. Se você é autor no TabNews e NÃO deseja que seus textos façam parte deste experimento de treinamento de IA:

  1. Prazo: Daremos 72 horas antes da consolidação da V1.0.
  2. Como sair: Basta [PREENCHER ESTE FORMULÁRIO - LINK] ou comentar abaixo: "Não autorizo a inclusão do meu perfil no crom-tabnews-db".
  3. Remoção Permanente: Uma vez solicitado, seu username entra em nossa blacklist para todas as versões futuras.

🚀 Próximos Passos

Assim que a coleta e a limpeza terminarem, subiremos tudo para o Hugging Face da Crom AI. O objetivo final é que qualquer um de vocês possa rodar um assistente técnico básico em PT-BR direto no navegador ou em um terminal, de forma 100% offline e privada.

O que você acha do desafio de criar um Chat-PTBR com menos de 100M? É possível ou estamos sendo otimistas demais? Vamos debater nos comentários. E tenha acesso a toda pesquisa.


Pesquisa CTabSearch conduzida por Juan Cândido (MrJ) e @pedrodev2026.

1
https://www.tabnews.com.br/MrJ/aviso-de-coleta-treinando-o-tablm-o-desafio-dos-100m-em-pt-br-criando-uma-ia-de-100m-com-o-dna-do-tabnews-pesquisa-e-dataset
·
#tag categoriza
%video:link vídeos

Crom Ecossistema

Todas as ferramentas conectadas em um único lugar.

arrow_outward language

ENGLISH

arrow_outward watch

MODO HACKER

arrow_outward dynamic_feed

MiniBlog

arrow_outward build

Ferramentas

arrow_outward movie

Cromva

arrow_outward map

GeoFlowMap

arrow_outward library_books

Sume

arrow_outward folder_zip

OmniFiles

arrow_outward newspaper

MarketNews

arrow_outward sync_alt

P2PFile

arrow_outward database

DbFakeAI

arrow_outward code

Verbo

arrow_outward apps

MiniApps