Spaces:

mac9087
/

metanice

Build error

App Files Files Community

mac9087 commited on 8 days ago

Commit

b3b50b5

verified ·

1 Parent(s): d1d82fe

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -12

app.py CHANGED Viewed

@@ -5,37 +5,101 @@ from transformers import pipeline
 from TTS.api import TTS
 import tempfile
 import os
 app = Flask(__name__)
 CORS(app)
 # Load models
 whisper_model = WhisperModel("small", device="cpu", compute_type="int8")
-llm = pipeline("text-generation", model="tiiuae/falcon-rw-1b", max_new_tokens=100)
 tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False, gpu=False)
 @app.route("/talk", methods=["POST"])
 def talk():
     if "audio" not in request.files:
         return jsonify({"error": "No audio file"}), 400
     # Save audio
     audio_file = request.files["audio"]
     with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
         audio_path = tmp.name
         audio_file.save(audio_path)
     # Transcribe
     segments, _ = whisper_model.transcribe(audio_path)
     transcription = "".join([seg.text for seg in segments])
     # Generate response
-    response_text = llm(transcription)[0]["generated_text"]
     # Synthesize speech
     tts_audio_path = audio_path.replace(".wav", "_reply.wav")
-    tts.tts_to_file(text=response_text, file_path=tts_audio_path)
     return send_file(tts_audio_path, mimetype="audio/wav")
 @app.route("/chat", methods=["POST"])
@@ -43,11 +107,14 @@ def chat():
     data = request.get_json()
     if not data or "text" not in data:
         return jsonify({"error": "Missing 'text' in request body"}), 400
     user_input = data["text"]
-    response = llm(user_input)[0]["generated_text"]
-    return jsonify({"response": response})
 @app.route("/")
 def index():

 from TTS.api import TTS
 import tempfile
 import os
+import re
 app = Flask(__name__)
 CORS(app)
 # Load models
 whisper_model = WhisperModel("small", device="cpu", compute_type="int8")
+# Configure the LLM for short, conversational responses
+llm = pipeline(
+    "text-generation",
+    model="tiiuae/falcon-rw-1b",
+    max_new_tokens=50,  # Reduced token count for shorter responses
+)
 tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False, gpu=False)
+def process_response(input_text, generated_text):
+    # Remove the input text from the beginning of the response
+    if generated_text.startswith(input_text):
+        clean_response = generated_text[len(input_text):].strip()
+    else:
+        clean_response = generated_text.strip()
+    # Split into sentences and take only the first 1-2 meaningful sentences
+    sentences = re.split(r'(?<=[.!?])\s+', clean_response)
+    # Filter out empty or very short sentences
+    meaningful_sentences = [s for s in sentences if len(s) > 5]
+    # Take just 1-2 sentences for a casual, human-like response
+    if meaningful_sentences:
+        if len(meaningful_sentences) > 2:
+            result = " ".join(meaningful_sentences[:2])
+        else:
+            result = " ".join(meaningful_sentences)
+    else:
+        # Fallback if no good sentences were found
+        result = "I'm not sure what to say about that."
+    # Remove any repetitive phrases
+    result = remove_repetitions(result)
+    return result
+def remove_repetitions(text):
+    # Simple repetition removal
+    words = text.split()
+    if len(words) <= 5:  # Don't process very short responses
+        return text
+    result = []
+    for i in range(len(words)):
+        # Check if this word starts a repeated phrase
+        if i < len(words) - 3:  # Need at least 3 words to check for repetition
+            # Check if next 3+ words appear earlier in the text
+            is_repetition = False
+            for j in range(3, min(10, len(words) - i)):  # Check phrases of length 3 to 10
+                phrase = " ".join(words[i:i+j])
+                if phrase in " ".join(result):
+                    is_repetition = True
+                    break
+            if not is_repetition:
+                result.append(words[i])
+        else:
+            result.append(words[i])
+    return " ".join(result)
 @app.route("/talk", methods=["POST"])
 def talk():
     if "audio" not in request.files:
         return jsonify({"error": "No audio file"}), 400
     # Save audio
     audio_file = request.files["audio"]
     with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
         audio_path = tmp.name
         audio_file.save(audio_path)
     # Transcribe
     segments, _ = whisper_model.transcribe(audio_path)
     transcription = "".join([seg.text for seg in segments])
     # Generate response
+    raw_response = llm(transcription)[0]["generated_text"]
+    # Process to get clean, short response
+    final_response = process_response(transcription, raw_response)
     # Synthesize speech
     tts_audio_path = audio_path.replace(".wav", "_reply.wav")
+    tts.tts_to_file(text=final_response, file_path=tts_audio_path)
     return send_file(tts_audio_path, mimetype="audio/wav")
 @app.route("/chat", methods=["POST"])
     data = request.get_json()
     if not data or "text" not in data:
         return jsonify({"error": "Missing 'text' in request body"}), 400
     user_input = data["text"]
+    raw_response = llm(user_input)[0]["generated_text"]
+    # Process to get clean, short response
+    final_response = process_response(user_input, raw_response)
+    return jsonify({"response": final_response})
 @app.route("/")
 def index():