7 mēneši atpakaļ · afa42dd2e4
--- a/backend/open_webui/apps/audio/main.py
+++ b/backend/open_webui/apps/audio/main.py
@@ -161,7 +161,9 @@ async def update_audio_config(
 
				     app.state.config.TTS_VOICE = form_data.tts.VOICE
			
 
				     app.state.config.TTS_SPLIT_ON = form_data.tts.SPLIT_ON
			
 
				     app.state.config.TTS_AZURE_SPEECH_REGION = form_data.tts.AZURE_SPEECH_REGION
			
 
				-    app.state.config.TTS_AZURE_SPEECH_OUTPUT_FORMAT = form_data.tts.AZURE_SPEECH_OUTPUT_FORMAT
			
 
				+    app.state.config.TTS_AZURE_SPEECH_OUTPUT_FORMAT = (
			
 
				+        form_data.tts.AZURE_SPEECH_OUTPUT_FORMAT
			
 
				+    )
			
 
				 
			
 
				     app.state.config.STT_OPENAI_API_BASE_URL = form_data.stt.OPENAI_API_BASE_URL
			
 
				     app.state.config.STT_OPENAI_API_KEY = form_data.stt.OPENAI_API_KEY
			
@@ -314,7 +316,7 @@ async def speech(request: Request, user=Depends(get_verified_user)):
 
				                 detail=error_detail,
			
 
				             )
			
 
				 
			
 
				-    elif app.state.config.TTS_ENGINE == "azurespeechservice":
			
 
				+    elif app.state.config.TTS_ENGINE == "azure":
			
 
				         payload = None
			
 
				         try:
			
 
				             payload = json.loads(body.decode("utf-8"))
			
@@ -329,9 +331,9 @@ async def speech(request: Request, user=Depends(get_verified_user)):
 
				         url = f"https://{region}.tts.speech.microsoft.com/cognitiveservices/v1"
			
 
				 
			
 
				         headers = {
			
 
				-            'Ocp-Apim-Subscription-Key': app.state.config.TTS_API_KEY,
			
 
				-            'Content-Type': 'application/ssml+xml',
			
 
				-            'X-Microsoft-OutputFormat': output_format
			
 
				+            "Ocp-Apim-Subscription-Key": app.state.config.TTS_API_KEY,
			
 
				+            "Content-Type": "application/ssml+xml",
			
 
				+            "X-Microsoft-OutputFormat": output_format,
			
 
				         }
			
 
				 
			
 
				         data = f"""<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="{locale}">
			
@@ -347,9 +349,8 @@ async def speech(request: Request, user=Depends(get_verified_user)):
 
				         else:
			
 
				             log.error(f"Error synthesizing speech - {response.reason}")
			
 
				             raise HTTPException(
			
 
				-                status_code=500,
			
 
				-                detail=f"Error synthesizing speech - {response.reason}")
			
 
				-
			
 
				+                status_code=500, detail=f"Error synthesizing speech - {response.reason}"
			
 
				+            )
			
 
				 
			
 
				 
			
 
				 @app.post("/transcriptions")
			
@@ -528,23 +529,22 @@ def get_available_voices() -> dict:
 
				         except Exception:
			
 
				             # Avoided @lru_cache with exception
			
 
				             pass
			
 
				-    elif app.state.config.TTS_ENGINE == "azurespeechservice":
			
 
				+    elif app.state.config.TTS_ENGINE == "azure":
			
 
				         try:
			
 
				             region = app.state.config.TTS_AZURE_SPEECH_REGION
			
 
				             url = f"https://{region}.tts.speech.microsoft.com/cognitiveservices/voices/list"
			
 
				-            headers = {
			
 
				-                'Ocp-Apim-Subscription-Key': app.state.config.TTS_API_KEY
			
 
				-            }
			
 
				+            headers = {"Ocp-Apim-Subscription-Key": app.state.config.TTS_API_KEY}
			
 
				 
			
 
				             response = requests.get(url, headers=headers)
			
 
				             response.raise_for_status()
			
 
				             voices = response.json()
			
 
				             for voice in voices:
			
 
				-                ret[voice['ShortName']] = f"{voice['DisplayName']} ({voice['ShortName']})"
			
 
				+                ret[voice["ShortName"]] = (
			
 
				+                    f"{voice['DisplayName']} ({voice['ShortName']})"
			
 
				+                )
			
 
				         except requests.RequestException as e:
			
 
				             log.error(f"Error fetching voices: {str(e)}")
			
 
				 
			
 
				-
			
 
				     return ret
			
 
				 
			
 
				 
			
--- a/src/lib/components/admin/Settings/Audio.svelte
+++ b/src/lib/components/admin/Settings/Audio.svelte
@@ -91,7 +91,7 @@
 
				 				VOICE: TTS_VOICE,
			
 
				 				SPLIT_ON: TTS_SPLIT_ON,
			
 
				 				AZURE_SPEECH_REGION: TTS_AZURE_SPEECH_REGION,
			
 
				-				AZURE_SPEECH_OUTPUT_FORMAT: TTS_AZURE_SPEECH_OUTPUT_FORMAT,
			
 
				+				AZURE_SPEECH_OUTPUT_FORMAT: TTS_AZURE_SPEECH_OUTPUT_FORMAT
			
 
				 			},
			
 
				 			stt: {
			
 
				 				OPENAI_API_BASE_URL: STT_OPENAI_API_BASE_URL,
			
@@ -231,7 +231,7 @@
 
				 							<option value="">{$i18n.t('Web API')}</option>
			
 
				 							<option value="openai">{$i18n.t('OpenAI')}</option>
			
 
				 							<option value="elevenlabs">{$i18n.t('ElevenLabs')}</option>
			
 
				-							<option value="azurespeechservice">{$i18n.t('Azure Speech service')}</option>
			
 
				+							<option value="azure">{$i18n.t('Azure AI Speech')}</option>
			
 
				 						</select>
			
 
				 					</div>
			
 
				 				</div>
			
@@ -260,7 +260,7 @@
 
				 							/>
			
 
				 						</div>
			
 
				 					</div>
			
 
				-				{:else if TTS_ENGINE === 'azurespeechservice'}
			
 
				+				{:else if TTS_ENGINE === 'azure'}
			
 
				 					<div>
			
 
				 						<div class="mt-1 flex gap-2 mb-1">
			
 
				 							<input
			
@@ -276,7 +276,7 @@
 
				 								required
			
 
				 							/>
			
 
				 						</div>
			
 
				-				</div>
			
 
				+					</div>
			
 
				 				{/if}
			
 
				 
			
 
				 				<hr class=" dark:border-gray-850 my-2" />
			
@@ -343,88 +343,91 @@
 
				 							</div>
			
 
				 						</div>
			
 
				 					</div>
			
 
				-					{:else if TTS_ENGINE === 'elevenlabs'}
			
 
				-						<div class=" flex gap-2">
			
 
				-							<div class="w-full">
			
 
				-								<div class=" mb-1.5 text-sm font-medium">{$i18n.t('TTS Voice')}</div>
			
 
				-								<div class="flex w-full">
			
 
				-									<div class="flex-1">
			
 
				-										<input
			
 
				-											list="voice-list"
			
 
				-											class="w-full rounded-lg py-2 px-4 text-sm bg-gray-50 dark:text-gray-300 dark:bg-gray-850 outline-none"
			
 
				-											bind:value={TTS_VOICE}
			
 
				-											placeholder="Select a voice"
			
 
				-										/>
			
 
				-	
			
 
				-										<datalist id="voice-list">
			
 
				-											{#each voices as voice}
			
 
				-												<option value={voice.id}>{voice.name}</option>
			
 
				-											{/each}
			
 
				-										</datalist>
			
 
				-									</div>
			
 
				+				{:else if TTS_ENGINE === 'elevenlabs'}
			
 
				+					<div class=" flex gap-2">
			
 
				+						<div class="w-full">
			
 
				+							<div class=" mb-1.5 text-sm font-medium">{$i18n.t('TTS Voice')}</div>
			
 
				+							<div class="flex w-full">
			
 
				+								<div class="flex-1">
			
 
				+									<input
			
 
				+										list="voice-list"
			
 
				+										class="w-full rounded-lg py-2 px-4 text-sm bg-gray-50 dark:text-gray-300 dark:bg-gray-850 outline-none"
			
 
				+										bind:value={TTS_VOICE}
			
 
				+										placeholder="Select a voice"
			
 
				+									/>
			
 
				+
			
 
				+									<datalist id="voice-list">
			
 
				+										{#each voices as voice}
			
 
				+											<option value={voice.id}>{voice.name}</option>
			
 
				+										{/each}
			
 
				+									</datalist>
			
 
				 								</div>
			
 
				 							</div>
			
 
				-							<div class="w-full">
			
 
				-								<div class=" mb-1.5 text-sm font-medium">{$i18n.t('TTS Model')}</div>
			
 
				-								<div class="flex w-full">
			
 
				-									<div class="flex-1">
			
 
				-										<input
			
 
				-											list="tts-model-list"
			
 
				-											class="w-full rounded-lg py-2 px-4 text-sm bg-gray-50 dark:text-gray-300 dark:bg-gray-850 outline-none"
			
 
				-											bind:value={TTS_MODEL}
			
 
				-											placeholder="Select a model"
			
 
				-										/>
			
 
				-	
			
 
				-										<datalist id="tts-model-list">
			
 
				-											{#each models as model}
			
 
				-												<option value={model.id} />
			
 
				-											{/each}
			
 
				-										</datalist>
			
 
				-									</div>
			
 
				+						</div>
			
 
				+						<div class="w-full">
			
 
				+							<div class=" mb-1.5 text-sm font-medium">{$i18n.t('TTS Model')}</div>
			
 
				+							<div class="flex w-full">
			
 
				+								<div class="flex-1">
			
 
				+									<input
			
 
				+										list="tts-model-list"
			
 
				+										class="w-full rounded-lg py-2 px-4 text-sm bg-gray-50 dark:text-gray-300 dark:bg-gray-850 outline-none"
			
 
				+										bind:value={TTS_MODEL}
			
 
				+										placeholder="Select a model"
			
 
				+									/>
			
 
				+
			
 
				+									<datalist id="tts-model-list">
			
 
				+										{#each models as model}
			
 
				+											<option value={model.id} />
			
 
				+										{/each}
			
 
				+									</datalist>
			
 
				 								</div>
			
 
				 							</div>
			
 
				-						</div> 
			
 
				-					{:else if TTS_ENGINE === 'azurespeechservice'}
			
 
				-						<div class=" flex gap-2">
			
 
				-							<div class="w-full">
			
 
				-								<div class=" mb-1.5 text-sm font-medium">{$i18n.t('TTS Voice')}</div>
			
 
				-								<div class="flex w-full">
			
 
				-									<div class="flex-1">
			
 
				-										<input
			
 
				-											list="voice-list"
			
 
				-											class="w-full rounded-lg py-2 px-4 text-sm bg-gray-50 dark:text-gray-300 dark:bg-gray-850 outline-none"
			
 
				-											bind:value={TTS_VOICE}
			
 
				-											placeholder="Select a voice"
			
 
				-										/>
			
 
				-	
			
 
				-										<datalist id="voice-list">
			
 
				-											{#each voices as voice}
			
 
				-												<option value={voice.id}>{voice.name}</option>
			
 
				-											{/each}
			
 
				-										</datalist>
			
 
				-									</div>
			
 
				+						</div>
			
 
				+					</div>
			
 
				+				{:else if TTS_ENGINE === 'azure'}
			
 
				+					<div class=" flex gap-2">
			
 
				+						<div class="w-full">
			
 
				+							<div class=" mb-1.5 text-sm font-medium">{$i18n.t('TTS Voice')}</div>
			
 
				+							<div class="flex w-full">
			
 
				+								<div class="flex-1">
			
 
				+									<input
			
 
				+										list="voice-list"
			
 
				+										class="w-full rounded-lg py-2 px-4 text-sm bg-gray-50 dark:text-gray-300 dark:bg-gray-850 outline-none"
			
 
				+										bind:value={TTS_VOICE}
			
 
				+										placeholder="Select a voice"
			
 
				+									/>
			
 
				+
			
 
				+									<datalist id="voice-list">
			
 
				+										{#each voices as voice}
			
 
				+											<option value={voice.id}>{voice.name}</option>
			
 
				+										{/each}
			
 
				+									</datalist>
			
 
				 								</div>
			
 
				 							</div>
			
 
				-							<div class="w-full">
			
 
				-								<div class=" mb-1.5 text-sm font-medium">
			
 
				-									{$i18n.t('Output format')} 
			
 
				-									<a href="https://learn.microsoft.com/en-us/azure/ai-services/speech-service/rest-text-to-speech?tabs=streaming#audio-outputs" target="_blank" >
			
 
				-										<small>{$i18n.t('Available list')}</small>
			
 
				-									</a>
			
 
				-								</div>
			
 
				-								<div class="flex w-full">
			
 
				-									<div class="flex-1">
			
 
				-										<input
			
 
				-											list="tts-model-list"
			
 
				-											class="w-full rounded-lg py-2 px-4 text-sm bg-gray-50 dark:text-gray-300 dark:bg-gray-850 outline-none"
			
 
				-											bind:value={TTS_AZURE_SPEECH_OUTPUT_FORMAT}
			
 
				-											placeholder="Select a output format"
			
 
				-										/> 
			
 
				-									</div>
			
 
				+						</div>
			
 
				+						<div class="w-full">
			
 
				+							<div class=" mb-1.5 text-sm font-medium">
			
 
				+								{$i18n.t('Output format')}
			
 
				+								<a
			
 
				+									href="https://learn.microsoft.com/en-us/azure/ai-services/speech-service/rest-text-to-speech?tabs=streaming#audio-outputs"
			
 
				+									target="_blank"
			
 
				+								>
			
 
				+									<small>{$i18n.t('Available list')}</small>
			
 
				+								</a>
			
 
				+							</div>
			
 
				+							<div class="flex w-full">
			
 
				+								<div class="flex-1">
			
 
				+									<input
			
 
				+										list="tts-model-list"
			
 
				+										class="w-full rounded-lg py-2 px-4 text-sm bg-gray-50 dark:text-gray-300 dark:bg-gray-850 outline-none"
			
 
				+										bind:value={TTS_AZURE_SPEECH_OUTPUT_FORMAT}
			
 
				+										placeholder="Select a output format"
			
 
				+									/>
			
 
				 								</div>
			
 
				 							</div>
			
 
				 						</div>
			
 
				-					{/if}
			
 
				+					</div>
			
 
				+				{/if}
			
 
				 
			
 
				 				<hr class="dark:border-gray-850 my-2" />