huggingface · Sunt-ing · Jul 3, 2026
diff --git a/src/transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py b/src/transformers/models/qwen2_5_omni/processing_qwen2_5_omni.py
@@ -316,7 +316,9 @@ def post_process_image_text_to_text(self, generated_outputs, skip_special_tokens
         Returns:
             `list[str]`: The decoded text.
         """
-        return self.tokenizer.batch_decode(generated_outputs[0], skip_special_tokens=skip_special_tokens, **kwargs)
+        if isinstance(generated_outputs, (tuple, list)):
+            generated_outputs = generated_outputs[0]
+        return self.tokenizer.batch_decode(generated_outputs, skip_special_tokens=skip_special_tokens, **kwargs)
 
     def post_process_multimodal_output(
         self, generated_outputs, skip_special_tokens=True, generation_mode=None, **kwargs

diff --git a/src/transformers/models/qwen3_omni_moe/processing_qwen3_omni_moe.py b/src/transformers/models/qwen3_omni_moe/processing_qwen3_omni_moe.py
@@ -337,7 +337,9 @@ def post_process_image_text_to_text(self, generated_outputs, skip_special_tokens
         Returns:
             `list[str]`: The decoded text.
         """
-        return self.tokenizer.batch_decode(generated_outputs[0], skip_special_tokens=skip_special_tokens, **kwargs)
+        if isinstance(generated_outputs, (tuple, list)):
+            generated_outputs = generated_outputs[0]
+        return self.tokenizer.batch_decode(generated_outputs, skip_special_tokens=skip_special_tokens, **kwargs)
 
     def post_process_multimodal_output(
         self, generated_outputs, skip_special_tokens=True, generation_mode=None, **kwargs

diff --git a/tests/models/qwen2_5_omni/test_processing_qwen2_5_omni.py b/tests/models/qwen2_5_omni/test_processing_qwen2_5_omni.py
@@ -38,6 +38,24 @@
     import torch
 
 
+@require_torch
+def test_qwen2_5_omni_post_process_multimodal_output_keeps_text_batch():
+    class TokenizerStub:
+        def batch_decode(self, generated_ids, skip_special_tokens=True, **kwargs):
+            return [f"decoded-{row.tolist()}" for row in generated_ids]
+
+    processor = Qwen2_5OmniProcessor.__new__(Qwen2_5OmniProcessor)
+    processor.tokenizer = TokenizerStub()
+    generated_ids = torch.tensor([[1, 2], [3, 4]])
+    expected = ["decoded-[1, 2]", "decoded-[3, 4]"]
+
+    decoded = processor.post_process_multimodal_output(generated_ids, generation_mode="text")
+    assert decoded == expected
+
+    decoded_from_tuple = processor.post_process_multimodal_output((generated_ids,), generation_mode="text")
+    assert decoded_from_tuple == expected
+
+
 @require_vision
 @require_torch
 @require_torchaudio

diff --git a/tests/models/qwen3_omni_moe/test_processing_qwen3_omni_moe.py b/tests/models/qwen3_omni_moe/test_processing_qwen3_omni_moe.py
@@ -39,6 +39,24 @@
     import torch
 
 
+@require_torch
+def test_qwen3_omni_moe_post_process_multimodal_output_keeps_text_batch():
+    class TokenizerStub:
+        def batch_decode(self, generated_ids, skip_special_tokens=True, **kwargs):
+            return [f"decoded-{row.tolist()}" for row in generated_ids]
+
+    processor = Qwen3OmniMoeProcessor.__new__(Qwen3OmniMoeProcessor)
+    processor.tokenizer = TokenizerStub()
+    generated_ids = torch.tensor([[1, 2], [3, 4]])
+    expected = ["decoded-[1, 2]", "decoded-[3, 4]"]
+
+    decoded = processor.post_process_multimodal_output(generated_ids, generation_mode="text")
+    assert decoded == expected
+
+    decoded_from_tuple = processor.post_process_multimodal_output((generated_ids,), generation_mode="text")
+    assert decoded_from_tuple == expected
+
+
 @require_vision
 @require_torch
 @require_torchaudio