Add FP8-INT4 checkpoint upload code

jerryzh168 · jerryzh168 · commit 83d1561fdb65 · 2026-02-17T21:36:54.000-08:00
Summary: att, the support is added in #3714 checkpoint: https://huggingface.co/jerryzh168/Qwen3-8B-FP8-INT4 Test Plan: ``` sh release.sh --model_id $MODEL --push_to_hub --populate_model_card_template --quants FP8-INT4 ``` produced checkpoint: https://huggingface.co/jerryzh168/Qwen3-8B-FP8-INT4 Reviewers: Subscribers: Tasks: Tags: [ghstack-poisoned]
diff --git a/.github/scripts/torchao_model_releases/quantize_and_upload.py b/.github/scripts/torchao_model_releases/quantize_and_upload.py
@@ -7,6 +7,7 @@
 import argparse
 from typing import List
 
+import huggingface_hub
 import torch
 import transformers
 from huggingface_hub import ModelCard, get_token, whoami
@@ -16,6 +17,8 @@
 if _transformers_version >= "5":
     from transformers.quantizers.auto import get_hf_quantizer
 
+_huggingface_hub_version = str(huggingface_hub.__version__)
+
 from torchao._models._eval import TransformerEvalWrapper
 from torchao.prototype.awq import (
     AWQConfig,
@@ -27,6 +30,7 @@
 from torchao.prototype.smoothquant import SmoothQuantConfig
 from torchao.quantization import (
     Float8DynamicActivationFloat8WeightConfig,
+    Float8DynamicActivationInt4WeightConfig,
     Int4WeightOnlyConfig,
     Int8DynamicActivationInt8WeightConfig,
     Int8DynamicActivationIntxWeightConfig,
@@ -238,6 +242,14 @@ def _untie_weights_and_save_locally(model_id, device):
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 """
 
+_fp8_int4_quant_code = """
+from torchao.quantization import Float8DynamicActivationInt4WeightConfig
+quant_config = Float8DynamicActivationInt4WeightConfig(int4_packing_format="plain")
+quantization_config = TorchAoConfig(quant_type=quant_config)
+quantized_model = AutoModelForCausalLM.from_pretrained(model_to_quantize, device_map="{device}", torch_dtype=torch.bfloat16, quantization_config=quantization_config)
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+"""
+
 _int8_int4_quant_code = """
 from torchao.quantization.quant_api import (
     IntxWeightOnlyConfig,
@@ -687,6 +699,9 @@ def quantize_and_upload(
 
     quant_to_config = {
         "FP8": Float8DynamicActivationFloat8WeightConfig(granularity=PerRow()),
+        "FP8-INT4": Float8DynamicActivationInt4WeightConfig(
+            int4_packing_format="plain"
+        ),
         "INT4": Int4WeightOnlyConfig(
             group_size=128,
             int4_packing_format="tile_packed_to_4d",
@@ -725,6 +740,7 @@ def quantize_and_upload(
 
     quant_to_quant_code = {
         "FP8": _fp8_quant_code,
+        "FP8-INT4": _fp8_int4_quant_code,
         "INT4": _int4_quant_code,
         "INT8-INT4": _int8_int4_quant_code,
         "INT8-INT4-HQQ": _int8_int4_hqq_quant_code,
@@ -908,16 +924,24 @@ def filter_fn_skip_lmhead(module, fqn):
 
     # Push to hub
     if push_to_hub:
-        quantized_model.push_to_hub(
-            quantized_model_id, safe_serialization=safe_serialization
-        )
+        if _huggingface_hub_version < "1.4.1":
+            quantized_model.push_to_hub(
+                quantized_model_id, safe_serialization=safe_serialization
+            )
+        else:
+            quantized_model.push_to_hub(quantized_model_id)
+
         tokenizer.push_to_hub(quantized_model_id)
         if populate_model_card_template:
             card.push_to_hub(quantized_model_id)
     else:
-        quantized_model.save_pretrained(
-            quantized_model_id, safe_serialization=safe_serialization
-        )
+        if _huggingface_hub_version < "1.4.1":
+            quantized_model.save_pretrained(
+                quantized_model_id, safe_serialization=safe_serialization
+            )
+        else:
+            quantized_model.save_pretrained(quantized_model_id)
+
         tokenizer.save_pretrained(quantized_model_id)
 
     # Manual Testing
@@ -960,7 +984,7 @@ def filter_fn_skip_lmhead(module, fqn):
     parser.add_argument(
         "--quant",
         type=str,
-        help="Quantization method. Options are FP8, INT4, INT8-INT4, INT8-INT4-HQQ, AWQ-INT4, SmoothQuant-INT8-INT8, MXFP8, NVFP4",
+        help="Quantization method. Options are FP8, FP8-INT4, INT4, INT8-INT4, INT8-INT4-HQQ, AWQ-INT4, SmoothQuant-INT8-INT8, MXFP8, NVFP4",
     )
     parser.add_argument(
         "--tasks",