Neve-Echo-6-12B-QAT-GGUF


Esse model card é para as novas versões da família Neve Echo otimizadas com Treinamento Consciente de Quantização (QAT), que permite preservar uma qualidade semelhante à bfloat16 enquanto reduz drasticamente os requisitos de memória para carregar o modelo. Quatro versões dos checkpoints QAT estão disponíveis:

  • Checkpoints QAT não quantizados (Q4_0): Pesos de meia precisão extraídos do pipeline QAT, ideais para compilação downstream personalizada e pesquisa.
  • GGUF (Q4_0): Formatos prontos para implantação, com ampla compatibilidade no ecossistema.
  • Otimizado para dispositivos móveis (wNa8o8): Um esquema personalizado projetado explicitamente para eficiência em hardware móvel. Ele apresenta camadas de decodificação direcionadas de 2 bits, caches KV otimizados e ativações estáticas para maximizar a economia de VRAM.
  • Tensores Comprimidos (w4a16): Checkpoints QAT serializados no formato compressed-tensors para inferência nativa e otimizada com vLLM.

Introdução

O Neve Echo 6 é um modelo de linguagem de última geração focado em uso geral e raciocínio para tarefas variadas. Esta versão em formato GGUF foi otimizada pela NeveAI para oferecer o equilíbrio ideal entre precisão lógica e eficiência computacional.


Destaques do Modelo

Este modelo foi desenvolvido para uso geral e execução de tarefas diversas, focando em:

  • Raciocínio Avançado (Thinking): Projetado como um modelo altamente capaz de raciocínio, com suporte a modos de pensamento estruturado para tarefas complexas.
  • Uso Geral e Produtividade: Otimizado para uma ampla variedade de tarefas como geração de texto, assistência, explicações, planejamento e automação.
  • Multimodalidade (Texto + Imagem): Capaz de processar entradas multimodais com suporte a diferentes resoluções e proporções.
  • Tool Calling e System Prompt: Suporte nativo a chamadas de função e ao papel system, permitindo maior controle e integração com ferramentas externas.

Benchmark de Performance

O Neve Echo 6 demonstra desempenho alinhado a modelos de ponta em múltiplas categorias:

Categoria Benchmark Neve Echo 6 Gemma 4 26B A4B
Knowledge MMLU Pro 77.2% 82.6%
Reasoning GPQA Diamond 78.8% 82.3%
Math AIME 2026 77.5% 88.3%
General BigBench Extra Hard 53.0% 64.8%

Detalhes da Arquitetura

  • Arquitetura: Transformer otimizado para raciocínio e tarefas gerais.
  • Parâmetros: ~12B totais (com subset ativo por token para eficiência).
  • Janela de Contexto: Até 256K tokens.
  • Camadas: Arquitetura profunda com atenção global na camada final.
  • MoE: Roteamento dinâmico de experts (subset ativo por inferência), otimizando performance e uso de memória.

Como utilizar (GGUF)

Este modelo é compatível com llama.cpp, Ollama, LM Studio e outras ferramentas que suportam o formato GGUF. Foco direcionado ao uso do modelo na plataforma autoral da organização NeveAI

Licença

Este repositório e os pesos do modelo estão licenciados sob a Licença Apache 2.0.

Contato

Se tiver qualquer dúvida, por favor, levante um issue ou entre em contato conosco em NeveIA.

Downloads last month
405
GGUF
Model size
12B params
Architecture
gemma4
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for NeveAI/Neve-Echo-6-12B-QAT-GGUF

Quantized
(23)
this model

Collection including NeveAI/Neve-Echo-6-12B-QAT-GGUF