Kokoro-FastAPI/api/tests/test_audio_service.py

"""Tests for AudioService"""

from unittest.mock import patch

import numpy as np
import pytest

from api.src.services.audio import AudioNormalizer, AudioService


@pytest.fixture(autouse=True)
def mock_settings():
    """Mock settings for all tests"""
    with patch("api.src.services.audio.settings") as mock_settings:
        mock_settings.gap_trim_ms = 250
        yield mock_settings


@pytest.fixture
def sample_audio():
    """Generate a simple sine wave for testing"""
    sample_rate = 24000
    duration = 0.1  # 100ms
    t = np.linspace(0, duration, int(sample_rate * duration))
    frequency = 440  # A4 note
    return np.sin(2 * np.pi * frequency * t).astype(np.float32), sample_rate


@pytest.mark.asyncio
async def test_convert_to_wav(sample_audio):
    """Test converting to WAV format"""
    audio_data, sample_rate = sample_audio
    # Write and finalize in one step for WAV
    result = await AudioService.convert_audio(
        audio_data,
        sample_rate,
        "wav",
        is_first_chunk=True,
        is_last_chunk=True
    )
    assert isinstance(result, bytes)
    assert len(result) > 0
    # Check WAV header
    assert result.startswith(b'RIFF')
    assert b'WAVE' in result[:12]


@pytest.mark.asyncio
async def test_convert_to_mp3(sample_audio):
    """Test converting to MP3 format"""
    audio_data, sample_rate = sample_audio
    result = await AudioService.convert_audio(audio_data, sample_rate, "mp3")
    assert isinstance(result, bytes)
    assert len(result) > 0
    # Check MP3 header (ID3 or MPEG frame sync)
    assert result.startswith(b'ID3') or result.startswith(b'\xff\xfb')


@pytest.mark.asyncio
async def test_convert_to_opus(sample_audio):
    """Test converting to Opus format"""
    audio_data, sample_rate = sample_audio
    result = await AudioService.convert_audio(audio_data, sample_rate, "opus")
    assert isinstance(result, bytes)
    assert len(result) > 0
    # Check OGG header
    assert result.startswith(b'OggS')


@pytest.mark.asyncio
async def test_convert_to_flac(sample_audio):
    """Test converting to FLAC format"""
    audio_data, sample_rate = sample_audio
    result = await AudioService.convert_audio(audio_data, sample_rate, "flac")
    assert isinstance(result, bytes)
    assert len(result) > 0
    # Check FLAC header
    assert result.startswith(b'fLaC')


@pytest.mark.asyncio
async def test_convert_to_aac(sample_audio):
    """Test converting to AAC format"""
    audio_data, sample_rate = sample_audio
    result = await AudioService.convert_audio(audio_data, sample_rate, "aac")
    assert isinstance(result, bytes)
    assert len(result) > 0
    # Check ADTS header (AAC)
    assert result.startswith(b'\xff\xf0') or result.startswith(b'\xff\xf1')


@pytest.mark.asyncio
async def test_convert_to_pcm(sample_audio):
    """Test converting to PCM format"""
    audio_data, sample_rate = sample_audio
    result = await AudioService.convert_audio(audio_data, sample_rate, "pcm")
    assert isinstance(result, bytes)
    assert len(result) > 0
    # PCM is raw bytes, so no header to check


@pytest.mark.asyncio
async def test_convert_to_invalid_format_raises_error(sample_audio):
    """Test that converting to an invalid format raises an error"""
    audio_data, sample_rate = sample_audio
    with pytest.raises(ValueError, match="Format invalid not supported"):
        await AudioService.convert_audio(audio_data, sample_rate, "invalid")


@pytest.mark.asyncio
async def test_normalization_wav(sample_audio):
    """Test that WAV output is properly normalized to int16 range"""
    audio_data, sample_rate = sample_audio
    # Create audio data outside int16 range
    large_audio = audio_data * 1e5
    # Write and finalize in one step for WAV
    result = await AudioService.convert_audio(
        large_audio,
        sample_rate,
        "wav",
        is_first_chunk=True,
        is_last_chunk=True
    )
    assert isinstance(result, bytes)
    assert len(result) > 0


@pytest.mark.asyncio
async def test_normalization_pcm(sample_audio):
    """Test that PCM output is properly normalized to int16 range"""
    audio_data, sample_rate = sample_audio
    # Create audio data outside int16 range
    large_audio = audio_data * 1e5
    result = await AudioService.convert_audio(large_audio, sample_rate, "pcm")
    assert isinstance(result, bytes)
    assert len(result) > 0


@pytest.mark.asyncio
async def test_invalid_audio_data():
    """Test handling of invalid audio data"""
    invalid_audio = np.array([])  # Empty array
    sample_rate = 24000
    with pytest.raises(ValueError):
        await AudioService.convert_audio(invalid_audio, sample_rate, "wav")


@pytest.mark.asyncio
async def test_different_sample_rates(sample_audio):
    """Test converting audio with different sample rates"""
    audio_data, _ = sample_audio
    sample_rates = [8000, 16000, 44100, 48000]

    for rate in sample_rates:
        result = await AudioService.convert_audio(
            audio_data,
            rate,
            "wav",
            is_first_chunk=True,
            is_last_chunk=True
        )
        assert isinstance(result, bytes)
        assert len(result) > 0


@pytest.mark.asyncio
async def test_buffer_position_after_conversion(sample_audio):
    """Test that buffer position is reset after writing"""
    audio_data, sample_rate = sample_audio
    # Write and finalize in one step for first conversion
    result = await AudioService.convert_audio(
        audio_data,
        sample_rate,
        "wav",
        is_first_chunk=True,
        is_last_chunk=True
    )
    # Convert again to ensure buffer was properly reset
    result2 = await AudioService.convert_audio(
        audio_data,
        sample_rate,
        "wav",
        is_first_chunk=True,
        is_last_chunk=True
    )
    assert len(result) == len(result2)
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`"""Tests for AudioService"""`
Ruff Check + Format 2025-01-01 21:50:41 -07:00
Ruff format + fix 2025-01-09 18:41:44 -07:00			`from unittest.mock import patch`

Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`import numpy as np`
			`import pytest`
Ruff Check + Format 2025-01-01 21:50:41 -07:00
Ruff checks, ci fix 2025-01-13 20:15:46 -07:00			`from api.src.services.audio import AudioNormalizer, AudioService`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00

- Added GenerateFromPhonemesRequest model to text_schemas.py - Refactored TTS model initialization methods in tts_gpu.py and tts_cpu.py - Added custom logger configuration in main.py - Deprecated text_processing router -> development route 2025-01-09 07:20:14 -07:00			`@pytest.fixture(autouse=True)`
			`def mock_settings():`
			`"""Mock settings for all tests"""`
Ruff format + fix 2025-01-09 18:41:44 -07:00			`with patch("api.src.services.audio.settings") as mock_settings:`
- Added GenerateFromPhonemesRequest model to text_schemas.py - Refactored TTS model initialization methods in tts_gpu.py and tts_cpu.py - Added custom logger configuration in main.py - Deprecated text_processing router -> development route 2025-01-09 07:20:14 -07:00			`mock_settings.gap_trim_ms = 250`
			`yield mock_settings`

Ruff format + fix 2025-01-09 18:41:44 -07:00
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`@pytest.fixture`
			`def sample_audio():`
			`"""Generate a simple sine wave for testing"""`
			`sample_rate = 24000`
			`duration = 0.1 # 100ms`
			`t = np.linspace(0, duration, int(sample_rate * duration))`
			`frequency = 440 # A4 note`
			`return np.sin(2 * np.pi * frequency * t).astype(np.float32), sample_rate`


WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_convert_to_wav(sample_audio):`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`"""Test converting to WAV format"""`
			`audio_data, sample_rate = sample_audio`
-Add debug endpoint for system stats -Adjust headers, generate from phonemes, etc 2025-01-30 04:44:04 -07:00			`# Write and finalize in one step for WAV`
			`result = await AudioService.convert_audio(`
			`audio_data,`
			`sample_rate,`
			`"wav",`
			`is_first_chunk=True,`
			`is_last_chunk=True`
			`)`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`# Check WAV header`
			`assert result.startswith(b'RIFF')`
			`assert b'WAVE' in result[:12]`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00

WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_convert_to_mp3(sample_audio):`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`"""Test converting to MP3 format"""`
			`audio_data, sample_rate = sample_audio`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`result = await AudioService.convert_audio(audio_data, sample_rate, "mp3")`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`# Check MP3 header (ID3 or MPEG frame sync)`
			`assert result.startswith(b'ID3') or result.startswith(b'\xff\xfb')`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00

WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_convert_to_opus(sample_audio):`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`"""Test converting to Opus format"""`
			`audio_data, sample_rate = sample_audio`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`result = await AudioService.convert_audio(audio_data, sample_rate, "opus")`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`# Check OGG header`
			`assert result.startswith(b'OggS')`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00

WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_convert_to_flac(sample_audio):`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`"""Test converting to FLAC format"""`
			`audio_data, sample_rate = sample_audio`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`result = await AudioService.convert_audio(audio_data, sample_rate, "flac")`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`# Check FLAC header`
			`assert result.startswith(b'fLaC')`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00

WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_convert_to_aac(sample_audio):`
add AAC audio format and test 2025-01-17 21:43:10 -07:00			`"""Test converting to AAC format"""`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`audio_data, sample_rate = sample_audio`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`result = await AudioService.convert_audio(audio_data, sample_rate, "aac")`
add AAC audio format and test 2025-01-17 21:43:10 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`# Check ADTS header (AAC)`
			`assert result.startswith(b'\xff\xf0') or result.startswith(b'\xff\xf1')`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00

WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_convert_to_pcm(sample_audio):`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`"""Test converting to PCM format"""`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`audio_data, sample_rate = sample_audio`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`result = await AudioService.convert_audio(audio_data, sample_rate, "pcm")`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`# PCM is raw bytes, so no header to check`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00

WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_convert_to_invalid_format_raises_error(sample_audio):`
Refactor TTS API and enhance testing setup with coverage and logging improvements 2024-12-31 02:55:51 -07:00			`"""Test that converting to an invalid format raises an error"""`
			`audio_data, sample_rate = sample_audio`
			`with pytest.raises(ValueError, match="Format invalid not supported"):`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`await AudioService.convert_audio(audio_data, sample_rate, "invalid")`
added output audio tests, validation 2025-01-02 15:36:53 -07:00

WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_normalization_wav(sample_audio):`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`"""Test that WAV output is properly normalized to int16 range"""`
			`audio_data, sample_rate = sample_audio`
			`# Create audio data outside int16 range`
			`large_audio = audio_data * 1e5`
-Add debug endpoint for system stats -Adjust headers, generate from phonemes, etc 2025-01-30 04:44:04 -07:00			`# Write and finalize in one step for WAV`
			`result = await AudioService.convert_audio(`
			`large_audio,`
			`sample_rate,`
			`"wav",`
			`is_first_chunk=True,`
			`is_last_chunk=True`
			`)`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`


WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_normalization_pcm(sample_audio):`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`"""Test that PCM output is properly normalized to int16 range"""`
			`audio_data, sample_rate = sample_audio`
			`# Create audio data outside int16 range`
			`large_audio = audio_data * 1e5`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`result = await AudioService.convert_audio(large_audio, sample_rate, "pcm")`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`


WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_invalid_audio_data():`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`"""Test handling of invalid audio data"""`
			`invalid_audio = np.array([]) # Empty array`
			`sample_rate = 24000`
			`with pytest.raises(ValueError):`
WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`await AudioService.convert_audio(invalid_audio, sample_rate, "wav")`
added output audio tests, validation 2025-01-02 15:36:53 -07:00

WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_different_sample_rates(sample_audio):`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`"""Test converting audio with different sample rates"""`
			`audio_data, _ = sample_audio`
			`sample_rates = [8000, 16000, 44100, 48000]`

			`for rate in sample_rates:`
-Add debug endpoint for system stats -Adjust headers, generate from phonemes, etc 2025-01-30 04:44:04 -07:00			`result = await AudioService.convert_audio(`
			`audio_data,`
			`rate,`
			`"wav",`
			`is_first_chunk=True,`
			`is_last_chunk=True`
			`)`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`assert isinstance(result, bytes)`
			`assert len(result) > 0`


WIP: v1_0_0 migration 2025-01-28 13:52:57 -07:00			`@pytest.mark.asyncio`
			`async def test_buffer_position_after_conversion(sample_audio):`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`"""Test that buffer position is reset after writing"""`
			`audio_data, sample_rate = sample_audio`
-Add debug endpoint for system stats -Adjust headers, generate from phonemes, etc 2025-01-30 04:44:04 -07:00			`# Write and finalize in one step for first conversion`
			`result = await AudioService.convert_audio(`
			`audio_data,`
			`sample_rate,`
			`"wav",`
			`is_first_chunk=True,`
			`is_last_chunk=True`
			`)`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`# Convert again to ensure buffer was properly reset`
-Add debug endpoint for system stats -Adjust headers, generate from phonemes, etc 2025-01-30 04:44:04 -07:00			`result2 = await AudioService.convert_audio(`
			`audio_data,`
			`sample_rate,`
			`"wav",`
			`is_first_chunk=True,`
			`is_last_chunk=True`
			`)`
added output audio tests, validation 2025-01-02 15:36:53 -07:00			`assert len(result) == len(result2)`