post-training-quantization

Creating Snapdragon neural processing engine environment to convert protobuf(pb) files to dlc(deep learning container) files as well as use snpe for Quantizing neural networks. Mobile app development link https://github.com/anshumax/mobilenn

embedded ai deep-learning quantization snapdragon snpe post-training-quantization

Updated Jul 31, 2024
Python

notkisk / quantization-calibration-pathologies

Star

A set of notebooks analyzing neural network quantization, comparing symmetric and asymmetric schemes, calibration methods, and PTQ vs. QAT

quantization quantization-aware-training post-training-quantization

Updated Jan 3, 2026
Jupyter Notebook

yhwangs / TQ-DiT

Star

TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers

post-training-quantization diffusion-transformer

Updated Feb 6, 2025
Python

abdulvahapmutlu / quantlab-8bit

Star

QuantLab-8bit is a reproducible benchmark of 8-bit quantization on compact vision backbones. It includes FP32 baselines, PTQ (dynamic & static), QAT, ONNX exports, parity checks, ORT CPU latency, and visual diagnostics.

benchmarking computer-vision deep-learning pytorch reproducibility quantization model-compression onnx gradcam low-precision edge-ai onnxruntime streamlit model-optimization quantization-aware-training post-training-quantization efficient-ai

Updated Sep 25, 2025
Python

VThuong99 / LeNet5qt.c

Star

mnist quantization c-language lenet-5 post-training-quantization

Updated Jan 5, 2025
C

eakirtas / torch_fquant

Star

A Quantization method for PyTorch framework. Implementing lower than 8 bits quantization-aware and post training quantization methods

pytorch quantization-aware-training post-training-quantization efficient-dl

Updated Feb 21, 2025
Python

berlin0308 / Raspberrypi-MoViNet-TFLite

Star

Real-time video recognition with your Raspberry Pi!

tensorflow tensorflow-lite raspberry-pi-4 post-training-quantization

Updated Mar 3, 2025
Python

priyanshujiiii / awesome-Quantization

Sponsor

Star

In this repo you will understand .The process of reducing the precision of a model’s parameters and/or activations (e.g., from 32-bit floating point to 8-bit integers) to make neural networks smaller, faster, and more energy-efficient with minimal accuracy loss.

deep-learning neural-networks quantization zero-shot model-compression mixed-precision edge-ai hardware-aware data-free model-optimization quantization-aware-training post-training-quantization efficient-ai

Updated Aug 11, 2025

thc1006 / SpikeIDS-MCU

Star

Hardware-verified SNN-equivalent intrusion detection system (IDS) on STM32N6 Neural-ART NPU. INT8 quantized MLP achieving 0.4561ms inference at 800MHz. First publicly documented IDS on a commodity MCU NPU with T=1 SNN-ANN equivalence validation.

Updated Mar 9, 2026
Python

OmidGhadami95 / EfficientNetV2_Quantization_CK

Star

EfficientNetV2 (Efficientnetv2-b2) and quantization int8 and fp32 (QAT and PTQ) on CK+ dataset . fine-tuning, augmentation, solving imbalanced dataset, etc.

python tensorflow keras quantization emotion-recognition qat ckplus facial-emotion-recognition scale-down googlecolab efficientnet imbalanced-dataset quantization-aware-training post-training-quantization efficientnetv2 ptq real-time-emotion-classification real-time-emotion-detection efficientnetv2-b2

Updated May 4, 2024
Jupyter Notebook

Tfloow / auto_adpq

Star

This repo aims at replicating: "AdpQ: A Zero-shot Calibration Free Adaptive Post Training Quantization Method for LLMs" https://arxiv.org/abs/2405.13358

calibration quantization post-training-quantization llm