Spaces:

kaisugi
/

NLP2025_title_search

Sleeping

App Files Files Community

kaisugi commited on Mar 3

Commit

0e31147

1 Parent(s): ffb2a92

tiny fix

Browse files

Files changed (3) hide show

anlp2025.tsv +14 -14
app.py +1 -0
scrape.py +9 -2

anlp2025.tsv CHANGED Viewed

@@ -51,7 +51,7 @@ P1-20	低資源言語のニュース機械翻訳のためのLLM を用いた合
 P1-21	対訳データを用いた大規模言語モデルの継続事前訓練による特許請求項翻訳
 P1-22	AoGu: A Japanese-English literary parallel corpus from Aozora Bunko and Project Gutenberg
 P1-23	修辞構造に基づく分割統治型LLM翻訳
-P1-24💻	Word order of subject, object, oblique, and verb
 Q1-1	書き手の孤独感を予測できるか？
 Q1-2	BCCWJ-WLSP-LUW:『現代日本語書き言葉均衡コーパス』に対する長単位語義情報アノテーション
 Q1-3	JETHICS: 日本語道徳理解度評価用データセット
@@ -74,8 +74,8 @@ Q1-19	大規模画像言語モデルは物体の裏側を認識できるか？
 Q1-20	「現代日本語書き言葉均衡コーパス」の拡張―BCCWJ2の構築―
 Q1-21	SciGA: 学術論文における Graphical Abstract 設計支援のための統合データセット
 Q1-22	否定の観点からみた日本語言語理解ベンチマークの評価
-Q1-23J	オンライン誹謗中傷検出に向けた裁判例データセット
-Q1-24J	MATCHA：専門家が平易化した記事を用いたやさしい日本語パラレルコーパス
 A2-1	大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する
 A2-2	オープン日本語LLMリーダーボードの構築と評価結果の分析
 A2-3	pfgen-bench: 日本語事前学習モデルのための文章生成性能評価ベンチマーク
@@ -128,7 +128,7 @@ P2-22	単語埋め込みの独立成分分析の軸が解釈できる粒度は
 P2-23	ニューロン経験勾配によるモデル出力の制御と言語知識表現の統合
 P2-24	Wikipediaリダイレクト情報を活用したエンティティベース質問応答データセットの構築
 P2-25	TrendScape 1.0: 言語モデルの潜在空間上の概念探索
-P2-26💻	紙とデジタルの違いが書く活動に及ぼす影響：漢字・熟語・慣用表現・四字熟語を対象に
 Q2-1	JHACE: Human-AI Collaborationの評価法の提案，及び，対人スキルの影響の調査
 Q2-2	LLMの安全性における大規模人手評価
 Q2-3	AnswerCarefully: 日本語LLM安全性向上のためのデータセット
@@ -385,8 +385,8 @@ Q5-20	Iterative Graph-to-Text Generation with Contextualization for Scientific A
 Q5-21	テキスト埋め込みからのテキスト復元における予測制御の援用の効果検証
 Q5-22	LLMを用いた発話生成のキャラクター性付与におけるプロンプトとファインチューニングの効果比較
 Q5-23	Faissを用いたデータ拡張によるポジティブテキストリフレーミングの精度向上
-Q5-24J	日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用
-Q5-25J	Bidirectional Transformer Reranker for Grammatical Error Correction
 A6-1	スパースオートエンコーダーを用いた大規模言語モデルのチェックポイント横断分析
 A6-2	大規模言語モデルにおいて数値属性間で共有されるスケーリングベクトルの解析とその応用
 A6-3	競技クイズにおけるLLMと人間の誤答傾向の分析と比較
@@ -439,8 +439,8 @@ P6-20	災害時のソーシャルメディアを対象とした場所参照表
 P6-21	LLMを用いたクロールデータからの人物略歴文抽出
 P6-22	URL引用の要否判定において学習データの品質とドメインが与える影響の分析
 P6-23	時相論理を用いた物語のエンティティ状態検索
-P6-24J	シソーラスの階層的構造を利用した弱教師あり固有表現抽出
-P6-25J	未知の知識に対する事前学習済み言語モデルが持つ推論能力の調査
 Q6-1	行動分類のためのコーパス構築と行動分析への応用
 Q6-2	JAMSE：日本語LLM評価用の高品質な少サンプル日本語ベンチマークの作成および評価−GENIAC LLM開発コンペティションからの知見−
 Q6-3	複数のLLMを用いた法令QAタスクのGround Truth Curation
@@ -540,8 +540,8 @@ Q7-19	拡張現実を用いた歩行型音声対話エージェント
 Q7-20	農林業基準技術に含まれる表を対象としたPDF から CSV へ変換する際の課題分��
 Q7-21	新型コロナワクチンをめぐるTwitter上の話題変化：テキスト精読と頻出単語分析による仮説構築とその検証
 Q7-22	農林業基準技術文書を対象としたPDF解析ツールの表構造認識の性能評価
-Q7-23J	クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題
-Q7-24J	NAIST Simultaneous Interpretation Corpus: Development and Analyses of Data from Interpreters of Different Levels
 A8-1	似た単語の知識ニューロンは似た形成過程を経る
 A8-2	多角的な評価から大規模言語モデルにおける事実知識の想起の要因分析
 A8-3	心理測定テストに関するLLMのメタ知識の検証
@@ -619,7 +619,7 @@ Q8-21	模倣学習による大規模言語モデルの指示チューニング
 Q8-22	少量ショットに対する大規模言語モデル（LLM）を用いた人工データ生成による精度向上の試み
 Q8-23	量子化 bit 幅の異なる基盤モデルに対する Adapter の転移性を活用した Low-Rank Adaptation
 Q8-24	連合学習におけるLoRAの統合数と精度の関係の検証
-Q8-25J	Weighted Asymmetric Loss for Multi-Label Text Classification on Imbalanced Data
 A9-1	段落単位の対訳データによる大規模言語モデルの翻訳精度向上
 A9-2	対訳単語の対偶を考慮した文パターンの選択とNMTの効果
 A9-3	特許請求項翻訳における単語対応に基づく節分割モデルの有効性
@@ -672,7 +672,7 @@ P9-19	TEPPAY: ゲームのプレイ動画を入力とする実況AI Tuberシス
 P9-20	行動認識の粒度アライメントに基づく予定の履行認識
 P9-21	Psychological Investigation of Personality Knowledge in a Large Language Model
 P9-22	関連研究節自動生成に向けた引用論文の最適配置
-P9-23J	近傍事例を用いた対話における感情認識
 Q9-1	生成型自動要約の信頼性向上を目的とした数値情報の誤り検出と修正手法
 Q9-2	言語のインクリメンタルな処理の仕組みは普遍的か？：投機性によるparsing strategy再考
 Q9-3	近現代の日本語文学作品における発表年次の予測
@@ -695,8 +695,8 @@ Q9-19	自動ファクトチェックのための事実の分解による含意
 Q9-20	大規模言語モデルを用いたStory Intention Graph の自動生成の精度改善
 Q9-21	文の埋め込みに効果的な静的単語ベクトルの獲得
 Q9-22	訓練不要な条件付きテキスト埋め込み
-Q9-23J	How Domain Adaptation of BERT Improves Syntactic Parsing of Math Text
-Q9-24J	Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
 A10-1	Data Augmentation for Manipuri-English Neural Machine Translation
 A10-2	llmMT+1: 非英語言語対 LLM 翻訳の実現法の検討
 A10-3	Towards Equitable Translation: Gender Bias in Large Language Models

 P1-21	対訳データを用いた大規模言語モデルの継続事前訓練による特許請求項翻訳
 P1-22	AoGu: A Japanese-English literary parallel corpus from Aozora Bunko and Project Gutenberg
 P1-23	修辞構造に基づく分割統治型LLM翻訳
+P1-24	Word order of subject, object, oblique, and verb
 Q1-1	書き手の孤独感を予測できるか？
 Q1-2	BCCWJ-WLSP-LUW:『現代日本語書き言葉均衡コーパス』に対する長単位語義情報アノテーション
 Q1-3	JETHICS: 日本語道徳理解度評価用データセット
 Q1-20	「現代日本語書き言葉均衡コーパス」の拡張―BCCWJ2の構築―
 Q1-21	SciGA: 学術論文における Graphical Abstract 設計支援のための統合データセット
 Q1-22	否定の観点からみた日本語言語理解ベンチマークの評価
+Q1-23	オンライン誹謗中傷検出に向けた裁判例データセット
+Q1-24	MATCHA：専門家が平易化した記事を用いたやさしい日本語パラレルコーパス
 A2-1	大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する
 A2-2	オープン日本語LLMリーダーボードの構築と評価結果の分析
 A2-3	pfgen-bench: 日本語事前学習モデルのための文章生成性能評価ベンチマーク
 P2-23	ニューロン経験勾配によるモデル出力の制御と言語知識表現の統合
 P2-24	Wikipediaリダイレクト情報を活用したエンティティベース質問応答データセットの構築
 P2-25	TrendScape 1.0: 言語モデルの潜在空間上の概念探索
+P2-26	紙とデジタルの違いが書く活動に及ぼす影響：漢字・熟語・慣用表現・四字熟語を対象に
 Q2-1	JHACE: Human-AI Collaborationの評価法の提案，及び，対人スキルの影響の調査
 Q2-2	LLMの安全性における大規模人手評価
 Q2-3	AnswerCarefully: 日本語LLM安全性向上のためのデータセット
 Q5-21	テキスト埋め込みからのテキスト復元における予測制御の援用の効果検証
 Q5-22	LLMを用いた発話生成のキャラクター性付与におけるプロンプトとファインチューニングの効果比較
 Q5-23	Faissを用いたデータ拡張によるポジティブテキストリフレーミングの精度向上
+Q5-24	日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用
+Q5-25	Bidirectional Transformer Reranker for Grammatical Error Correction
 A6-1	スパースオートエンコーダーを用いた大規模言語モデルのチェックポイント横断分析
 A6-2	大規模言語モデルにおいて数値属性間で共有されるスケーリングベクトルの解析とその応用
 A6-3	競技クイズにおけるLLMと人間の誤答傾向の分析と比較
 P6-21	LLMを用いたクロールデータからの人物略歴文抽出
 P6-22	URL引用の要否判定において学習データの品質とドメインが与える影響の分析
 P6-23	時相論理を用いた物語のエンティティ状態検索
+P6-24	シソーラスの階層的構造を利用した弱教師あり固有表現抽出
+P6-25	未知の知識に対する事前学習済み言語モデルが持つ推論能力の調査
 Q6-1	行動分類のためのコーパス構築と行動分析への応用
 Q6-2	JAMSE：日本語LLM評価用の高品質な少サンプル日本語ベンチマークの作成および評価−GENIAC LLM開発コンペティションからの知見−
 Q6-3	複数のLLMを用いた法令QAタスクのGround Truth Curation
 Q7-20	農林業基準技術に含まれる表を対象としたPDF から CSV へ変換する際の課題分��
 Q7-21	新型コロナワクチンをめぐるTwitter上の話題変化：テキスト精読と頻出単語分析による仮説構築とその検証
 Q7-22	農林業基準技術文書を対象としたPDF解析ツールの表構造認識の性能評価
+Q7-23	クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題
+Q7-24	NAIST Simultaneous Interpretation Corpus: Development and Analyses of Data from Interpreters of Different Levels
 A8-1	似た単語の知識ニューロンは似た形成過程を経る
 A8-2	多角的な評価から大規模言語モデルにおける事実知識の想起の要因分析
 A8-3	心理測定テストに関するLLMのメタ知識の検証
 Q8-22	少量ショットに対する大規模言語モデル（LLM）を用いた人工データ生成による精度向上の試み
 Q8-23	量子化 bit 幅の異なる基盤モデルに対する Adapter の転移性を活用した Low-Rank Adaptation
 Q8-24	連合学習におけるLoRAの統合数と精度の関係の検証
+Q8-25	Weighted Asymmetric Loss for Multi-Label Text Classification on Imbalanced Data
 A9-1	段落単位の対訳データによる大規模言語モデルの翻訳精度向上
 A9-2	対訳単語の対偶を考慮した文パターンの選択とNMTの効果
 A9-3	特許請求項翻訳における単語対応に基づく節分割モデルの有効性
 P9-20	行動認識の粒度アライメントに基づく予定の履行認識
 P9-21	Psychological Investigation of Personality Knowledge in a Large Language Model
 P9-22	関連研究節自動生成に向けた引用論文の最適配置
+P9-23	近傍事例を用いた対話における感情認識
 Q9-1	生成型自動要約の信頼性向上を目的とした数値情報の誤り検出と修正手法
 Q9-2	言語のインクリメンタルな処理の仕組みは普遍的か？：投機性によるparsing strategy再考
 Q9-3	近現代の日本語文学作品における発表年次の予測
 Q9-20	大規模言語モデルを用いたStory Intention Graph の自動生成の精度改善
 Q9-21	文の埋め込みに効果的な静的単語ベクトルの獲得
 Q9-22	訓練不要な条件付きテキスト埋め込み
+Q9-23	How Domain Adaptation of BERT Improves Syntactic Parsing of Math Text
+Q9-24	Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
 A10-1	Data Augmentation for Manipuri-English Neural Machine Translation
 A10-2	llmMT+1: 非英語言語対 LLM 翻訳の実現法の検討
 A10-3	Towards Equitable Translation: Gender Bias in Large Language Models

app.py CHANGED Viewed

@@ -60,6 +60,7 @@ if __name__ == "__main__":
     index.add(title_embeddings)
     st.markdown("## NLP2025 論文検索")
     input_text = st.text_input('query', '', placeholder='')
     top_k = st.number_input('top_k', min_value=1, value=10, step=1)

     index.add(title_embeddings)
     st.markdown("## NLP2025 論文検索")
+    st.html(f"大会公式ページは<a href='https://www.anlp.jp/proceedings/annual_meeting/2025/' target='_blank'>こちら</a>")
     input_text = st.text_input('query', '', placeholder='')
     top_k = st.number_input('top_k', min_value=1, value=10, step=1)

scrape.py CHANGED Viewed

@@ -1,6 +1,8 @@
 from bs4 import BeautifulSoup
 import requests
 url = "https://www.anlp.jp/proceedings/annual_meeting/2025/"
 response = requests.get(url)
@@ -18,8 +20,13 @@ for table in soup.find_all('table'):
         title_span = tr.find('span', class_='title')
         if pid_span and title_span:
             pair = (pid_span.get_text(), title_span.get_text())
-            if pair[0] and pair[1]:
-                extracted_pairs.append(pair)
 with open("anlp2025.tsv", "w") as f:

 from bs4 import BeautifulSoup
 import requests
+import re
 url = "https://www.anlp.jp/proceedings/annual_meeting/2025/"
 response = requests.get(url)
         title_span = tr.find('span', class_='title')
         if pid_span and title_span:
             pair = (pid_span.get_text(), title_span.get_text())
+            # 後処理
+            pattern = r'^([A-Z]\d+-\d+)'
+            match = re.match(pattern, pair[0])
+            if pair[0] and pair[1] and match:
+                extracted_pairs.append((match.group(1), pair[1]))
 with open("anlp2025.tsv", "w") as f: