Spaces:

ruslanmv
/

Granite-Vision-Chatbot

Running on Zero

App Files Files Community

ruslanmv commited on Feb 13

Commit

aec88ad

verified ·

1 Parent(s): b0cdadf

Update src/app.py

Browse files

Files changed (1) hide show

src/app.py +27 -24

src/app.py CHANGED Viewed

@@ -127,8 +127,8 @@ def generate(
             yield collected_answer # Yield initial part of answer
         elif reasoning_started and not answer_started:
-            collected_reasoning = text # Accumulate reasoning tokens
-            yield text # Stream reasoning tokens
         elif answer_started:
             collected_answer += text # Accumulate answer tokens
@@ -146,7 +146,7 @@ def get_text_from_content(content):
         if item["type"] == "text":
             texts.append(item["text"])
         elif item["type"] == "image":
-            texts.append("<image>")
     return " ".join(texts)
 @spaces.GPU
@@ -179,29 +179,32 @@ def chat_inference(image, text, conversation, temperature=VISION_TEMPERATURE, to
     output = vision_model.generate(**inputs, **generation_kwargs)
     assistant_response = vision_processor.decode(output[0], skip_special_tokens=True)
-    reasoning = ""
-    answer = ""
-    if "<reasoning>" in assistant_response and "<answer>" in assistant_response:
-        reasoning_start = assistant_response.find("<reasoning>") + len("<reasoning>")
-        reasoning_end = assistant_response.find("</reasoning>")
-        reasoning = assistant_response[reasoning_start:reasoning_end].strip()
-        answer_start = assistant_response.find("<answer>") + len("<answer>")
-        answer_end = assistant_response.find("</answer>")
-        if answer_end != -1: # Handle cases where answer end tag is present
-            answer = assistant_response[answer_start:answer_end].strip()
-        else: # Fallback if answer end tag is missing (less robust)
-            answer = assistant_response[answer_start:].strip()
-    formatted_response_content = []
-    if reasoning:
-        formatted_response_content.append({"type": "text", "text": f"[Reasoning]: {reasoning}"})
-    formatted_response_content.append({"type": "text", "text": f"[Answer]: {answer}"})
-    conversation.append({"role": "assistant", "content": formatted_response_content})
     return display_vision_conversation(conversation), conversation
 # =============================================================================
@@ -238,7 +241,7 @@ def display_vision_conversation(conversation):
                 assistant_content = conversation[i+1]["content"]
                 assistant_text_parts = []
                 for item in assistant_content:
-                    if item["type"] == "text":
                         assistant_text_parts.append(item["text"])
                 assistant_msg = "\n".join(assistant_text_parts).strip()
                 i += 2
@@ -322,7 +325,7 @@ with gr.Blocks(fill_height=True, css_paths=css_file_path, head_paths=head_file_p
                 vision_top_p_slider = gr.Slider(minimum=0.0, maximum=1.0, value=VISION_TOP_P, step=0.01, label="Vision Top p", elem_classes=["gr_accordion_element"])
                 vision_top_k_slider = gr.Slider(minimum=0, maximum=100, value=VISION_TOP_K, step=1, label="Vision Top k", elem_classes=["gr_accordion_element"])
                 vision_max_tokens_slider = gr.Slider(minimum=10, maximum=300, value=VISION_MAX_TOKENS, step=1, label="Vision Max Tokens", elem_classes=["gr_accordion_element"])
-    send_button = gr.Button("Send Message")
     clear_button = gr.Button("Clear Chat")
     # Conversation state variables for each branch.

             yield collected_answer # Yield initial part of answer
         elif reasoning_started and not answer_started:
+             collected_reasoning = text # Accumulate reasoning tokens
+             yield text # Stream reasoning tokens
         elif answer_started:
             collected_answer += text # Accumulate answer tokens
         if item["type"] == "text":
             texts.append(item["text"])
         elif item["type"] == "image":
+            texts.append("<Image>")
     return " ".join(texts)
 @spaces.GPU
     output = vision_model.generate(**inputs, **generation_kwargs)
     assistant_response = vision_processor.decode(output[0], skip_special_tokens=True)
+    ### For future versions of Vision with Reasoning
+    vision_reasoning=False
+    if vision_reasoning:
+        reasoning = ""
+        answer = ""
+        if "<reasoning>" in assistant_response and "<answer>" in assistant_response:
+            reasoning_start = assistant_response.find("<reasoning>") + len("<reasoning>")
+            reasoning_end = assistant_response.find("</reasoning>")
+            reasoning = assistant_response[reasoning_start:reasoning_end].strip()
+            answer_start = assistant_response.find("<answer>") + len("<answer>")
+            answer_end = assistant_response.find("</answer>")
+            if answer_end != -1: # Handle cases where answer end tag is present
+                answer = assistant_response[answer_start:answer_end].strip()
+            else: # Fallback if answer end tag is missing (less robust)
+                answer = assistant_response[answer_start:].strip()
+        formatted_response_content = []
+        if reasoning:
+            formatted_response_content.append({"type": "text", "text": f"[Reasoning]: {reasoning}"})
+        formatted_response_content.append({"type": "text", "text": f"[Answer]: {answer}"})
+        conversation.append({"role": "assistant", "content": formatted_response_content})
+    else:
+        conversation.append({"role": "assistant", "content": [{"type": "text", "text": assistant_response.strip()}]})
     return display_vision_conversation(conversation), conversation
 # =============================================================================
                 assistant_content = conversation[i+1]["content"]
                 assistant_text_parts = []
                 for item in assistant_content:
+                     if item["type"] == "text":
                         assistant_text_parts.append(item["text"])
                 assistant_msg = "\n".join(assistant_text_parts).strip()
                 i += 2
                 vision_top_p_slider = gr.Slider(minimum=0.0, maximum=1.0, value=VISION_TOP_P, step=0.01, label="Vision Top p", elem_classes=["gr_accordion_element"])
                 vision_top_k_slider = gr.Slider(minimum=0, maximum=100, value=VISION_TOP_K, step=1, label="Vision Top k", elem_classes=["gr_accordion_element"])
                 vision_max_tokens_slider = gr.Slider(minimum=10, maximum=300, value=VISION_MAX_TOKENS, step=1, label="Vision Max Tokens", elem_classes=["gr_accordion_element"])
+        send_button = gr.Button("Send Message")
     clear_button = gr.Button("Clear Chat")
     # Conversation state variables for each branch.