Spaces:

YO-LOLO
/

ManualTest

Running

App Files Files Community

YO-LOLO commited on Mar 10

Commit

fd2a8a8

verified ·

1 Parent(s): fde8a52

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -26

app.py CHANGED Viewed

@@ -22,23 +22,6 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 from transformers import T5ForConditionalGeneration, T5Tokenizer
 from sentence_transformers import SentenceTransformer
-model = SentenceTransformer("all-MiniLM-L6-v2")  # 例
-print(model.get_sentence_embedding_dimension())  # 768 のはず
-# モデルをロード
-model = SentenceTransformer("all-MiniLM-L6-v2")  # 768次元の埋め込みを生成
-# 既存のインデックスファイルを削除する（手動で削除するか、スクリプトで削除する）
-if os.path.exists("faiss_index"):
-    os.remove("faiss_index")
-# FAISSインデックスを作り直す
-embedding_dim = 768  # ここをモデルに合わせる
-index = faiss.IndexFlatL2(embedding_dim)  # L2距離で検索
-# 新しいインデックスを保存
-faiss.write_index(index, "faiss_index")
-#model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2")  # 1024次元のモデル
 # 条件付きインポート（ローカル環境とHugging Face Spacesの両方に対応）
 try:
     import fitz  # PyMuPDF
@@ -69,6 +52,10 @@ class ManualChatbot:
         self.file_hashes = {}  # ファイルのハッシュ値を保持する辞書
         self.last_update_check = None  # 最後に更新をチェックした時間
         self.processing_status = "未初期化"
         # ディレクトリが存在しなければ作成
         os.makedirs(docs_dir, exist_ok=True)
@@ -198,19 +185,35 @@ class ManualChatbot:
         # 埋め込みモデルの初期化
         embeddings = HuggingFaceEmbeddings(
-            model_name="intfloat/multilingual-e5-base",  # 軽量化のためbaseモデルを使用
-            model_kwargs={'device': 'cpu'}  # Spacesでは常にCPUを使用
         )
-        # 既存のベクトルストアが存在する場合は追加、なければ新規作成
         if self.vectorstore is None:
             self.vectorstore = Chroma.from_documents(
                 documents=chunks,
                 embedding=embeddings,
                 persist_directory="./chroma_db"
             )
-            self.vectorstore.persist()
-        else:
             # 既存のベクトルストアに新しいドキュメントを追加
             self.vectorstore.add_documents(chunks)
@@ -423,22 +426,28 @@ class ManualChatbot:
         """保存済みのベクトルストアを読み込む"""
         if os.path.exists("./chroma_db"):
             try:
                 embeddings = HuggingFaceEmbeddings(
-                    model_name="intfloat/multilingual-e5-base",
                     model_kwargs={'device': 'cpu'}
                 )
                 self.vectorstore = Chroma(
                     persist_directory="./chroma_db",
                     embedding_function=embeddings
                 )
                 # QAチェーンを初期化
                 self._initialize_qa_chain()
                 self.processing_status = "準備完了"
                 return "保存済みの知識ベースを読み込みました"
             except Exception as e:
                 self.processing_status = "エラー"
                 return f"知識ベースの読み込みに失敗しました: {str(e)}"
         else:

 from transformers import T5ForConditionalGeneration, T5Tokenizer
 from sentence_transformers import SentenceTransformer
 # 条件付きインポート（ローカル環境とHugging Face Spacesの両方に対応）
 try:
     import fitz  # PyMuPDF
         self.file_hashes = {}  # ファイルのハッシュ値を保持する辞書
         self.last_update_check = None  # 最後に更新をチェックした時間
         self.processing_status = "未初期化"
+        # 使用するモデルの次元数を一貫させる
+        self.embedding_model_name = "intfloat/multilingual-e5-base"
+        self.embedding_dimension = 1024  # このモデルの次元数
         # ディレクトリが存在しなければ作成
         os.makedirs(docs_dir, exist_ok=True)
         # 埋め込みモデルの初期化
         embeddings = HuggingFaceEmbeddings(
+            model_name=self.embedding_model_name,
+            model_kwargs={'device': 'cpu'}
         )
+        # ベクトルストアの初期化/更新
         if self.vectorstore is None:
+            # 初めての場合は新規作成
+            try:
+                self.vectorstore = Chroma.from_documents(
+                    documents=chunks,
+                    embedding=embeddings,
+                    persist_directory="./chroma_db"
+                )
+            self.vectorstore.persist()
+        except Exception as e:
+            print(f"ベクトルストア作成中にエラー発生: {str(e)}")
+            # 既存のchroma_dbディレクトリを削除して再作成する
+            import shutil
+            if os.path.exists("./chroma_db"):
+                shutil.rmtree("./chroma_db")
+            os.makedirs("./chroma_db", exist_ok=True)
+            # 再度作成を試みる
             self.vectorstore = Chroma.from_documents(
                 documents=chunks,
                 embedding=embeddings,
                 persist_directory="./chroma_db"
             )
+            self.vectorstore.persist()        else:
             # 既存のベクトルストアに新しいドキュメントを追加
             self.vectorstore.add_documents(chunks)
         """保存済みのベクトルストアを読み込む"""
         if os.path.exists("./chroma_db"):
             try:
+                # 埋め込みモデルの初期化 - 一貫したモデルを使用
                 embeddings = HuggingFaceEmbeddings(
+                    model_name=self.embedding_model_name,
                     model_kwargs={'device': 'cpu'}
                 )
                 self.vectorstore = Chroma(
                     persist_directory="./chroma_db",
                     embedding_function=embeddings
                 )
                 # QAチェーンを初期化
                 self._initialize_qa_chain()
                 self.processing_status = "準備完了"
                 return "保存済みの知識ベースを読み込みました"
             except Exception as e:
+                import traceback
+                error_details = traceback.format_exc()
+                print(f"知識ベース読み込みエラー: {str(e)}\n{error_details}")
+                # エラーの場合、chroma_dbディレクトリを削除して新規作成する選択肢も
                 self.processing_status = "エラー"
                 return f"知識ベースの読み込みに失敗しました: {str(e)}"
         else: