Unify seq_len naming in DiT get_input_embed

2026-04-28 08:43:06 -07:00 · 2026-02-15 23:24:11 -05:00
parent 57dc698c16
commit c817d6a21d
1 changed files with 3 additions and 3 deletions
--- a/src/f5_tts/model/backbones/dit.py
+++ b/src/f5_tts/model/backbones/dit.py
@@ -265,10 +265,10 @@ class DiT(nn.Module):
    ):
        if self.text_uncond is None or self.text_cond is None or not cache:
            if audio_mask is None:
-                seq_lens = x.shape[1]
+                seq_len = x.shape[1]
            else:
-                seq_lens = audio_mask.sum(dim=1)  # per-sample valid speech length
-            text_embed = self.text_embed(text, seq_lens, drop_text=drop_text)
+                seq_len = audio_mask.sum(dim=1)  # per-sample valid speech length
+            text_embed = self.text_embed(text, seq_len=seq_len, drop_text=drop_text)
            if cache:
                if drop_text:
                    self.text_uncond = text_embed