fixed no stream file writing

2025-08-05 16:48:53 +00:00 · 2025-02-13 16:12:51 -05:00 · 2025-02-13 16:12:51 -05:00 · 7772dbc2e4
commit 7772dbc2e4
parent dbf2b99026
4 changed files with 28 additions and 28 deletions
--- a/api/src/inference/base.py
+++ b/api/src/inference/base.py
@ -21,7 +21,7 @@ class AudioChunk:
        output=AudioChunk(audio_chunk_list[0].audio,audio_chunk_list[0].word_timestamps)
        
        for audio_chunk in audio_chunk_list[1:]:
-            output.audio=np.concatenate((output.audio,audio_chunk.audio))
+            output.audio=np.concatenate((output.audio,audio_chunk.audio),dtype=np.int16)
            if output.word_timestamps is not None:
                output.word_timestamps+=output.word_timestamps
                
--- a/api/src/routers/openai_compatible.py
+++ b/api/src/routers/openai_compatible.py
@ -7,6 +7,7 @@ import re
 import tempfile
 from typing import AsyncGenerator, Dict, List, Union, Tuple
 from urllib import response
+import numpy as np

 import aiofiles
 from ..inference.base import AudioChunk
@ -259,24 +260,31 @@ async def create_speech(
            )
        else:
            # Generate complete audio using public interface
-            audio, audio_data = await tts_service.generate_audio(
+            _, audio_data = await tts_service.generate_audio(
                text=request.input,
                voice=voice_name,
                speed=request.speed,
                lang_code=request.lang_code,
            )
-
-            # Convert to requested format with proper finalization
            content, audio_data = await AudioService.convert_audio(
                audio_data,
                24000,
                request.response_format,
                is_first_chunk=True,
+                is_last_chunk=False,
+            )
+            
+            # Convert to requested format with proper finalization
+            final, _ = await AudioService.convert_audio(
+                AudioChunk(np.array([], dtype=np.int16)),
+                24000,
+                request.response_format,
+                is_first_chunk=False,
                is_last_chunk=True,
            )
-            print(content,request.response_format)
+            output=content+final
            return Response(
-                content=content,
+                content=output,
                media_type=content_type,
                headers={
                    "Content-Disposition": f"attachment; filename=speech.{request.response_format}",
--- a/api/src/services/audio.py
+++ b/api/src/services/audio.py
@ -72,7 +72,7 @@ class AudioNormalizer:

        return max(non_silent_index_start - self.samples_to_pad_start,0), min(non_silent_index_end + math.ceil(samples_to_pad_end / speed),len(audio_data))

-    async def normalize(self, audio_data: np.ndarray) -> np.ndarray:
+    def normalize(self, audio_data: np.ndarray) -> np.ndarray:
        """Convert audio data to int16 range

        Args:
@ -80,12 +80,10 @@ class AudioNormalizer:
        Returns:
            Normalized audio data
        """
-        if len(audio_data) == 0:
-            raise ValueError("Empty audio data")
-
-        # Scale directly to int16 range with clipping
-        return np.clip(audio_data * 32767, -32768, 32767).astype(np.int16)
-
+        if audio_data.dtype != np.int16:
+            # Scale directly to int16 range with clipping
+            return np.clip(audio_data * 32767, -32768, 32767).astype(np.int16)
+        return audio_data

 class AudioService:
    """Service for audio format conversions with streaming support"""
@ -148,11 +146,9 @@ class AudioService:
            if normalizer is None:
                normalizer = AudioNormalizer()
            
-            print(len(audio_chunk.audio),"1")
-            audio_chunk.audio = await normalizer.normalize(audio_chunk.audio)
-            print(len(audio_chunk.audio),"2")
+            audio_chunk.audio = normalizer.normalize(audio_chunk.audio)
            audio_chunk = AudioService.trim_audio(audio_chunk,chunk_text,speed,is_last_chunk,normalizer)
-            print(len(audio_chunk.audio),"3")
+            
            # Get or create format-specific writer
            writer_key = f"{output_format}_{sample_rate}"
            if is_first_chunk or writer_key not in AudioService._writers:
@ -169,7 +165,6 @@ class AudioService:
            if is_last_chunk:
                final_data = writer.write_chunk(finalize=True)
                del AudioService._writers[writer_key]
-                print(audio_chunk.audio)
                return final_data if final_data else b"", audio_chunk

            return chunk_data if chunk_data else b"", audio_chunk
@ -196,6 +191,7 @@ class AudioService:
        if normalizer is None:
            normalizer = AudioNormalizer()
        
+        audio_chunk.audio=normalizer.normalize(audio_chunk.audio)
        # Trim start and end if enough samples
        if len(audio_chunk.audio) > (2 * normalizer.samples_to_trim):
            audio_chunk.audio = audio_chunk.audio[normalizer.samples_to_trim : -normalizer.samples_to_trim]
--- a/api/src/services/tts_service.py
+++ b/api/src/services/tts_service.py
@ -62,7 +62,7 @@ class TTSService:
                if is_last:
                    # Skip format conversion for raw audio mode
                    if not output_format:
-                        yield np.array([], dtype=np.float32)
+                        yield np.array([], dtype=np.int16), AudioChunk(np.array([], dtype=np.int16))
                        return
                    result, chunk_data = await AudioService.convert_audio(
                        AudioChunk(np.array([0], dtype=np.float32)),  # Dummy data for type checking
@ -111,7 +111,7 @@ class TTSService:
                            except Exception as e:
                                logger.error(f"Failed to convert audio: {str(e)}")
                        else:
-                            chunk_data = await AudioService.trim_audio(chunk_data,
+                            chunk_data = AudioService.trim_audio(chunk_data,
                                                                    chunk_text,
                                                                    speed,
                                                                    is_last,
@ -152,7 +152,7 @@ class TTSService:
                        except Exception as e:
                            logger.error(f"Failed to convert audio: {str(e)}")
                    else:
-                        trimmed = await AudioService.trim_audio(chunk_data,
+                        trimmed = AudioService.trim_audio(chunk_data,
                                                                    chunk_text,
                                                                    speed,
                                                                    is_last,
@ -288,7 +288,6 @@ class TTSService:
                        current_offset+=len(chunk_data.audio) / 24000
                        
                        if result is not None:
-                            print(chunk_data.word_timestamps)
                            yield result,chunk_data
                            chunk_index += 1
                        else:
@ -342,17 +341,14 @@ class TTSService:
        audio_data_chunks=[]
  
        try:
-            async for audio_stream,audio_stream_data in self.generate_audio_stream(text,voice,speed=speed,return_timestamps=return_timestamps,lang_code=lang_code):
+            async for audio_stream,audio_stream_data in self.generate_audio_stream(text,voice,speed=speed,return_timestamps=return_timestamps,lang_code=lang_code,output_format=None):
                audio_chunks.append(audio_stream_data.audio)
                audio_data_chunks.append(audio_stream_data)
            
-            print(audio_data_chunks[0].audio.shape)
+
            
-            combined_audio=np.concatenate(audio_chunks)
-            print("1")
+            combined_audio=np.concatenate(audio_chunks,dtype=np.int16)
            combined_audio_data=AudioChunk.combine(audio_data_chunks)
-            print("2")
-            print(len(combined_audio_data.audio))
            return combined_audio,combined_audio_data
            """
            # Get backend and voice path