#

post-training-quantization

Here are 31 public repositories matching this topic...

666DZY666 / micronet

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、reg…

Updated Oct 6, 2021
Python

intel / neural-compressor

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated Jun 12, 2024
Python

alibaba / TinyNeuralNetwork

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-neural-networks deep-learning pytorch pruning model-compression model-converter quantization-aware-training post-training-quantization

Updated Jun 6, 2024
Python

SqueezeAILab / SqueezeLLM

[ICML 2024] SqueezeLLM: Dense-and-Sparse Quantization

natural-language-processing text-generation transformer llama quantization model-compression efficient-inference post-training-quantization large-language-models llm small-models localllm

Updated May 2, 2024
Python

megvii-research / Sparsebit

A model compression and acceleration toolbox based on pytorch.

deep-learning sparse pruning quantization tensorrt quantization-aware-training post-training-quantization

Updated Jan 12, 2024
Python

megvii-research / FQ-ViT

[IJCAI 2022] FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

pytorch imagenet quantization post-training-quantization vision-transformer

Updated Apr 11, 2023
Python

Xiuyu-Li / q-diffusion

[ICCV 2023] Q-Diffusion: Quantizing Diffusion Models.

pytorch quantization model-compression diffusion-models post-training-quantization ddim stable-diffusion

Updated Mar 21, 2024
Python

sayakpaul / Adventures-in-TensorFlow-Lite

This repository contains notebooks that show the usage of TensorFlow Lite for quantizing deep neural networks.

inference pruning tensorflow-lite tensorflow-2 on-device-ml tf-hub model-quantization model-optimization quantization-aware-training post-training-quantization tf-lite-model

Updated Jan 23, 2023
Jupyter Notebook

ModelTC / llmc

This is the official PyTorch implementation of "LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models", and also an efficient LLM compression tool with various advanced compression methods, supporting multiple inference backends.

Updated Jun 11, 2024
Python

hkproj / quantization-notes

Notes on quantization in neural networks

deep-learning pytorch neural-networks quantization quantization-aware-training post-training-quantization

Updated Dec 14, 2023
Jupyter Notebook

Sanjana7395 / static_quantization

Post-training static quantization using ResNet18 architecture

pytorch mnist-classification quantization resnet-18 post-training-quantization floatfunctional fbgemm float32-to-int8 reduce-inference-time reduce-memory-storage

Updated Aug 1, 2020
Jupyter Notebook

ModelTC / TFMQ-DM

[CVPR 2024 Highlight] This is the official PyTorch implementation of "TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models".

highlight quantization cvpr ldm diffusion-models post-training-quantization ddim stable-diffusion cvpr2024

Updated Jun 9, 2024
Jupyter Notebook

ModelTC / QLLM

[ICLR 2024] This is the official PyTorch implementation of "QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models"

transformers pytorch llama quantization post-training-quantization llm llama2

Updated Mar 11, 2024
Python

zysxmu / FDDA

Pytorch implementation of our paper accepted by ECCV 2022-- Fine-grained Data Distribution Alignment for Post-Training Quantization

acceleration compression post-training-quantization

Updated Sep 13, 2022
Python

KwangHoonAn / Quantizations

quantization dfq post-training-quantization data-free-quantization

Updated Apr 6, 2021
Python

iszry / DI2N-PTQ4DM

Improved the performance of 8-bit PTQ4DM expecially on FID.

diffusion-model post-training-quantization

Updated Aug 30, 2023
Python

Rumeysakeskin / ASR-Quantization

Post-training quantization on Nvidia Nemo ASR model

pytorch speech-recognition quantization model-deployment pytorch-lightning post-training-quantization nvidia-nemo

Updated Aug 23, 2023
Jupyter Notebook

likholat / openvino_quantization

This sample shows how to convert TensorFlow model to OpenVINO IR model and how to quantize OpenVINO model.

tensorflow quantization model-acceleration openvino model-optimizer model-conversion post-training-quantization

Updated Oct 6, 2022
Python

yester31 / Quantization_EX

quantization example for pqt & qat

quantization tensorrt int8 qat model-optimization quantization-aware-training post-training-quantization pytorch-quantization ptq

Updated Jul 24, 2023
Python

ssi-research / eptq

Implementation of EPTQ - an Enhanced Post-Training Quantization algorithm for DNN compression

computer-vision neural-network quantization hessian label-free post-training-quantization

Updated Sep 20, 2023
Python

Improve this page

Add a description, image, and links to the post-training-quantization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the post-training-quantization topic, visit your repo's landing page and select "manage topics."