RAGOndevice

Running on Zero

App Files Files Community

openfree commited on Mar 5

Commit

4dd6e62

verified ·

1 Parent(s): f2639d3

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -29

app.py CHANGED Viewed

@@ -706,12 +706,13 @@ def stream_chat(
         print(f"입력 텐서 생성 후 CUDA 메모리: {torch.cuda.memory_allocated() / 1024**2:.2f} MB")
-        # 스트리머 설정
         streamer = TextIteratorStreamer(
-            tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True
         )
-        # 생성 매개변수 설정
         generate_kwargs = dict(
             **inputs,
             streamer=streamer,
@@ -721,9 +722,13 @@ def stream_chat(
             max_new_tokens=max_new_tokens,
             do_sample=True,
             temperature=temperature,
-            eos_token_id=tokenizer.eos_token_id,  # 명시적 EOS 토큰 지정
         )
         # 메모리 정리
         clear_cuda_memory()
@@ -731,35 +736,26 @@ def stream_chat(
         thread = Thread(target=model.generate, kwargs=generate_kwargs)
         thread.start()
-        # 응답 스트리밍
         buffer = ""
-        partial_message = ""
-        last_yield_time = time.time()
         try:
             for new_text in streamer:
-                buffer += new_text
-                partial_message += new_text
-                # 일정 시간마다 또는 텍스트가 쌓일 때마다 결과 업데이트
-                current_time = time.time()
-                if current_time - last_yield_time > 0.1 or len(partial_message) > 20:
                     yield "", history + [[message, buffer]]
-                    partial_message = ""
-                    last_yield_time = current_time
-            # 마지막 응답 확인
-            if buffer:
-                yield "", history + [[message, buffer]]
-            # 대화 기록에 저장
-            chat_history.add_conversation(message, buffer)
-        except Exception as e:
-            print(f"스트리밍 중 오류 발생: {str(e)}")
-            if not buffer:  # 버퍼가 비어있으면 오류 메시지 표시
-                buffer = f"응답 생성 중 오류가 발생했습니다: {str(e)}"
             yield "", history + [[message, buffer]]
         # 스레드가 여전히 실행 중이면 종료 대기
         if thread.is_alive():

         print(f"입력 텐서 생성 후 CUDA 메모리: {torch.cuda.memory_allocated() / 1024**2:.2f} MB")
+    try:
+        # 스트리머 초기화 시 타임아웃을 더 길게 설정
         streamer = TextIteratorStreamer(
+            tokenizer, timeout=30.0, skip_prompt=True, skip_special_tokens=True
         )
         generate_kwargs = dict(
             **inputs,
             streamer=streamer,
             max_new_tokens=max_new_tokens,
             do_sample=True,
             temperature=temperature,
+            pad_token_id=tokenizer.pad_token_id if tokenizer.pad_token_id else tokenizer.eos_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+            use_cache=True
         )
         # 메모리 정리
         clear_cuda_memory()
         thread = Thread(target=model.generate, kwargs=generate_kwargs)
         thread.start()
+        # 스트리밍 처리 중 예외 처리 강화
         buffer = ""
         try:
             for new_text in streamer:
+                try:
+                    buffer += new_text
                     yield "", history + [[message, buffer]]
+                except Exception as inner_e:
+                    print(f"개별 토큰 처리 중 오류: {str(inner_e)}")
+                    continue
+        except Exception as stream_e:
+            print(f"스트리밍 전체 오류: {str(stream_e)}")
+            if not buffer:
+                buffer = "응답 생성 중 오류가 발생했습니다."
             yield "", history + [[message, buffer]]
+    except Exception as outer_e:
+        print(f"전체 생성 과정 오류: {str(outer_e)}")
+        yield "", history + [[message, "죄송합니다, 응답을 생성할 수 없습니다."]]
+]
         # 스레드가 여전히 실행 중이면 종료 대기
         if thread.is_alive():