#

post-training-quantization

Here are 31 public repositories matching this topic...

intel / neural-compressor

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated Jun 11, 2024
Python

ModelTC / llmc

This is the official PyTorch implementation of "LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models", and also an efficient LLM compression tool with various advanced compression methods, supporting multiple inference backends.

Updated Jun 11, 2024
Python

ModelTC / TFMQ-DM

[CVPR 2024 Highlight] This is the official PyTorch implementation of "TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models".

highlight quantization cvpr ldm diffusion-models post-training-quantization ddim stable-diffusion cvpr2024

Updated Jun 9, 2024
Jupyter Notebook

alibaba / TinyNeuralNetwork

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-neural-networks deep-learning pytorch pruning model-compression model-converter quantization-aware-training post-training-quantization

Updated Jun 6, 2024
Python

OmidGhadami95 / EfficientNetV2_Quantization_CK

EfficientNetV2 (Efficientnetv2-b2) and quantization int8 and fp32 (QAT and PTQ) on CK+ dataset . fine-tuning, augmentation, solving imbalanced dataset, etc.

python tensorflow keras quantization emotion-recognition qat ckplus facial-emotion-recognition scale-down googlecolab efficientnet imbalanced-dataset quantization-aware-training post-training-quantization efficientnetv2 ptq real-time-emotion-classification real-time-emotion-detection efficientnetv2-b2

Updated May 4, 2024
Jupyter Notebook

SqueezeAILab / SqueezeLLM

[ICML 2024] SqueezeLLM: Dense-and-Sparse Quantization

natural-language-processing text-generation transformer llama quantization model-compression efficient-inference post-training-quantization large-language-models llm small-models localllm

Updated May 2, 2024
Python

raj2022 / quantization_prunings

Post-Training quantization perfomed on the model trained with CLIC dataset.

post-training-quantization int8-quantization

Updated Apr 29, 2024
Jupyter Notebook

amikom-gace-research-group / characterize-ptq-tensorrt

Research experiments archive for post-training quantization with TensorRT. Submitted and Accepted to IEEE EDGE 2024

research tensorrt post-training-quantization

Updated Apr 4, 2024
Python

Xiuyu-Li / q-diffusion

[ICCV 2023] Q-Diffusion: Quantizing Diffusion Models.

pytorch quantization model-compression diffusion-models post-training-quantization ddim stable-diffusion

Updated Mar 21, 2024
Python

ModelTC / QLLM

[ICLR 2024] This is the official PyTorch implementation of "QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models"

transformers pytorch llama quantization post-training-quantization llm llama2

Updated Mar 11, 2024
Python

smpanaro / norm-tweaking

Post post-training-quantization (PTQ) method for improving LLMs. Unofficial implementation of https://arxiv.org/abs/2309.02784

quantization post-training-quantization ptq llms

Updated Feb 21, 2024
Python

megvii-research / Sparsebit

A model compression and acceleration toolbox based on pytorch.

deep-learning sparse pruning quantization tensorrt quantization-aware-training post-training-quantization

Updated Jan 12, 2024
Python

hkproj / quantization-notes

Notes on quantization in neural networks

deep-learning pytorch neural-networks quantization quantization-aware-training post-training-quantization

Updated Dec 14, 2023
Jupyter Notebook

yashmaniya0 / Quantization-of-Image-Classification-Models

Comprehensive study on the quantization of various CNN models, employing techniques such as Post-Training Quantization and Quantization Aware Training (QAT).

quantization-aware-training post-training-quantization

Updated Oct 30, 2023
Jupyter Notebook

ssi-research / eptq

Implementation of EPTQ - an Enhanced Post-Training Quantization algorithm for DNN compression

computer-vision neural-network quantization hessian label-free post-training-quantization

Updated Sep 20, 2023
Python

iszry / DI2N-PTQ4DM

Improved the performance of 8-bit PTQ4DM expecially on FID.

diffusion-model post-training-quantization

Updated Aug 30, 2023
Python

Rumeysakeskin / ASR-Quantization

Post-training quantization on Nvidia Nemo ASR model

pytorch speech-recognition quantization model-deployment pytorch-lightning post-training-quantization nvidia-nemo

Updated Aug 23, 2023
Jupyter Notebook

yester31 / Quantization_EX

quantization example for pqt & qat

quantization tensorrt int8 qat model-optimization quantization-aware-training post-training-quantization pytorch-quantization ptq

Updated Jul 24, 2023
Python

andrea-zanette / HippoScan

A framework to train a ResUNet architecture, quantize, compile and execute it on an FPGA.

fpga keras segmentation pynq alveo tensorflow2 resunet post-training-quantization vitis-ai ultra96v2

Updated Jun 23, 2023
Jupyter Notebook

yester31 / TensorRT_ONNX

Generating tensorrt model using onnx

pytorch quantization tensorrt onnx int8-inference onnxruntime post-training-quantization int8-quantization tensorrt-inference ptq

Updated Jun 22, 2023
C++

Improve this page

Add a description, image, and links to the post-training-quantization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the post-training-quantization topic, visit your repo's landing page and select "manage topics."