Spaces:
Sleeping
Sleeping
tiny fix
Browse files- anlp2025.tsv +14 -14
- app.py +1 -0
- scrape.py +9 -2
anlp2025.tsv
CHANGED
@@ -51,7 +51,7 @@ P1-20 低資源言語のニュース機械翻訳のためのLLM を用いた合
|
|
51 |
P1-21 対訳データを用いた大規模言語モデルの継続事前訓練による特許請求項翻訳
|
52 |
P1-22 AoGu: A Japanese-English literary parallel corpus from Aozora Bunko and Project Gutenberg
|
53 |
P1-23 修辞構造に基づく分割統治型LLM翻訳
|
54 |
-
P1-24
|
55 |
Q1-1 書き手の孤独感を予測できるか?
|
56 |
Q1-2 BCCWJ-WLSP-LUW:『現代日本語書き言葉均衡コーパス』に対する長単位語義情報アノテーション
|
57 |
Q1-3 JETHICS: 日本語道徳理解度評価用データセット
|
@@ -74,8 +74,8 @@ Q1-19 大規模画像言語モデルは物体の裏側を認識できるか?
|
|
74 |
Q1-20 「現代日本語書き言葉均衡コーパス」の拡張―BCCWJ2の構築―
|
75 |
Q1-21 SciGA: 学術論文における Graphical Abstract 設計支援のための統合データセット
|
76 |
Q1-22 否定の観点からみた日本語言語理解ベンチマークの評価
|
77 |
-
Q1-
|
78 |
-
Q1-
|
79 |
A2-1 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する
|
80 |
A2-2 オープン日本語LLMリーダーボードの構築と評価結果の分析
|
81 |
A2-3 pfgen-bench: 日本語事前学習モデルのための文章生成性能評価ベンチマーク
|
@@ -128,7 +128,7 @@ P2-22 単語埋め込みの独立成分分析の軸が解釈できる粒度は
|
|
128 |
P2-23 ニューロン経験勾配によるモデル出力の制御と言語知識表現の統合
|
129 |
P2-24 Wikipediaリダイレクト情報を活用したエンティティベース質問応答データセットの構築
|
130 |
P2-25 TrendScape 1.0: 言語モデルの潜在空間上の概念探索
|
131 |
-
P2-26
|
132 |
Q2-1 JHACE: Human-AI Collaborationの評価法の提案,及び,対人スキルの影響の調査
|
133 |
Q2-2 LLMの安全性における大規模人手評価
|
134 |
Q2-3 AnswerCarefully: 日本語LLM安全性向上のためのデータセット
|
@@ -385,8 +385,8 @@ Q5-20 Iterative Graph-to-Text Generation with Contextualization for Scientific A
|
|
385 |
Q5-21 テキスト埋め込みからのテキスト復元における予測制御の援用の効果検証
|
386 |
Q5-22 LLMを用いた発話生成のキャラクター性付与におけるプロンプトとファインチューニングの効果比較
|
387 |
Q5-23 Faissを用いたデータ拡張によるポジティブテキストリフレーミングの精度向上
|
388 |
-
Q5-
|
389 |
-
Q5-
|
390 |
A6-1 スパースオートエンコーダーを用いた大規模言語モデルのチェックポイント横断分析
|
391 |
A6-2 大規模言語モデルにおいて数値属性間で共有されるスケーリングベクトルの解析とその応用
|
392 |
A6-3 競技クイズにおけるLLMと人間の誤答傾向の分析と比較
|
@@ -439,8 +439,8 @@ P6-20 災害時のソーシャルメディアを対象とした場所参照表
|
|
439 |
P6-21 LLMを用いたクロールデータからの人物略歴文抽出
|
440 |
P6-22 URL引用の要否判定において学習データの品質とドメインが与える影響の分析
|
441 |
P6-23 時相論理を用いた物語のエンティティ状態検索
|
442 |
-
P6-
|
443 |
-
P6-
|
444 |
Q6-1 行動分類のためのコーパス構築と行動分析への応用
|
445 |
Q6-2 JAMSE:日本語LLM評価用の高品質な少サンプル日本語ベンチマークの作成および評価−GENIAC LLM開発コンペティションからの知見−
|
446 |
Q6-3 複数のLLMを用いた法令QAタスクのGround Truth Curation
|
@@ -540,8 +540,8 @@ Q7-19 拡張現実を用いた歩行型音声対話エージェント
|
|
540 |
Q7-20 農林業基準技術に含まれる表を対象としたPDF から CSV へ変換する際の課題分��
|
541 |
Q7-21 新型コロナワクチンをめぐるTwitter上の話題変化:テキスト精読と頻出単語分析による仮説構築とその検証
|
542 |
Q7-22 農林業基準技術文書を対象としたPDF解析ツールの表構造認識の性能評価
|
543 |
-
Q7-
|
544 |
-
Q7-
|
545 |
A8-1 似た単語の知識ニューロンは似た形成過程を経る
|
546 |
A8-2 多角的な評価から大規模言語モデルにおける事実知識の想起の要因分析
|
547 |
A8-3 心理測定テストに関するLLMのメタ知識の検証
|
@@ -619,7 +619,7 @@ Q8-21 模倣学習による大規模言語モデルの指示チューニング
|
|
619 |
Q8-22 少量ショットに対する大規模言語モデル(LLM)を用いた人工データ生成による精度向上の試み
|
620 |
Q8-23 量子化 bit 幅の異なる基盤モデルに対する Adapter の転移性を活用した Low-Rank Adaptation
|
621 |
Q8-24 連合学習におけるLoRAの統合数と精度の関係の検証
|
622 |
-
Q8-
|
623 |
A9-1 段落単位の対訳データによる大規模言語モデルの翻訳精度向上
|
624 |
A9-2 対訳単語の対偶を考慮した文パターンの選択とNMTの効果
|
625 |
A9-3 特許請求項翻訳における単語対応に基づく節分割モデルの有効性
|
@@ -672,7 +672,7 @@ P9-19 TEPPAY: ゲームのプレイ動画を入力とする実況AI Tuberシス
|
|
672 |
P9-20 行動認識の粒度アライメントに基づく予定の履行認識
|
673 |
P9-21 Psychological Investigation of Personality Knowledge in a Large Language Model
|
674 |
P9-22 関連研究節自動生成に向けた引用論文の最適配置
|
675 |
-
P9-
|
676 |
Q9-1 生成型自動要約の信頼性向上を目的とした数値情報の誤り検出と修正手法
|
677 |
Q9-2 言語のインクリメンタルな処理の仕組みは普遍的か?:投機性によるparsing strategy再考
|
678 |
Q9-3 近現代の日本語文学作品における発表年次の予測
|
@@ -695,8 +695,8 @@ Q9-19 自動ファクトチェックのための事実の分解による含意
|
|
695 |
Q9-20 大規模言語モデルを用いたStory Intention Graph の自動生成の精度改善
|
696 |
Q9-21 文の埋め込みに効果的な静的単語ベクトルの獲得
|
697 |
Q9-22 訓練不要な条件付きテキスト埋め込み
|
698 |
-
Q9-
|
699 |
-
Q9-
|
700 |
A10-1 Data Augmentation for Manipuri-English Neural Machine Translation
|
701 |
A10-2 llmMT+1: 非英語言語対 LLM 翻訳の実現法の検討
|
702 |
A10-3 Towards Equitable Translation: Gender Bias in Large Language Models
|
|
|
51 |
P1-21 対訳データを用いた大規模言語モデルの継続事前訓練による特許請求項翻訳
|
52 |
P1-22 AoGu: A Japanese-English literary parallel corpus from Aozora Bunko and Project Gutenberg
|
53 |
P1-23 修辞構造に基づく分割統治型LLM翻訳
|
54 |
+
P1-24 Word order of subject, object, oblique, and verb
|
55 |
Q1-1 書き手の孤独感を予測できるか?
|
56 |
Q1-2 BCCWJ-WLSP-LUW:『現代日本語書き言葉均衡コーパス』に対する長単位語義情報アノテーション
|
57 |
Q1-3 JETHICS: 日本語道徳理解度評価用データセット
|
|
|
74 |
Q1-20 「現代日本語書き言葉均衡コーパス」の拡張―BCCWJ2の構築―
|
75 |
Q1-21 SciGA: 学術論文における Graphical Abstract 設計支援のための統合データセット
|
76 |
Q1-22 否定の観点からみた日本語言語理解ベンチマークの評価
|
77 |
+
Q1-23 オンライン誹謗中傷検出に向けた裁判例データセット
|
78 |
+
Q1-24 MATCHA:専門家が平易化した記事を用いたやさしい日本語パラレルコーパス
|
79 |
A2-1 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する
|
80 |
A2-2 オープン日本語LLMリーダーボードの構築と評価結果の分析
|
81 |
A2-3 pfgen-bench: 日本語事前学習モデルのための文章生成性能評価ベンチマーク
|
|
|
128 |
P2-23 ニューロン経験勾配によるモデル出力の制御と言語知識表現の統合
|
129 |
P2-24 Wikipediaリダイレクト情報を活用したエンティティベース質問応答データセットの構築
|
130 |
P2-25 TrendScape 1.0: 言語モデルの潜在空間上の概念探索
|
131 |
+
P2-26 紙とデジタルの違いが書く活動に及ぼす影響:漢字・熟語・慣用表現・四字熟語を対象に
|
132 |
Q2-1 JHACE: Human-AI Collaborationの評価法の提案,及び,対人スキルの影響の調査
|
133 |
Q2-2 LLMの安全性における大規模人手評価
|
134 |
Q2-3 AnswerCarefully: 日本語LLM安全性向上のためのデータセット
|
|
|
385 |
Q5-21 テキスト埋め込みからのテキスト復元における予測制御の援用の効果検証
|
386 |
Q5-22 LLMを用いた発話生成のキャラクター性付与におけるプロンプトとファインチューニングの効果比較
|
387 |
Q5-23 Faissを用いたデータ拡張によるポジティブテキストリフレーミングの精度向上
|
388 |
+
Q5-24 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用
|
389 |
+
Q5-25 Bidirectional Transformer Reranker for Grammatical Error Correction
|
390 |
A6-1 スパースオートエンコーダーを用いた大規模言語モデルのチェックポイント横断分析
|
391 |
A6-2 大規模言語モデルにおいて数値属性間で共有されるスケーリングベクトルの解析とその応用
|
392 |
A6-3 競技クイズにおけるLLMと人間の誤答傾向の分析と比較
|
|
|
439 |
P6-21 LLMを用いたクロールデータからの人物略歴文抽出
|
440 |
P6-22 URL引用の要否判定において学習データの品質とドメインが与える影響の分析
|
441 |
P6-23 時相論理を用いた物語のエンティティ状態検索
|
442 |
+
P6-24 シソーラスの階層的構造を利用した弱教師あり固有表現抽出
|
443 |
+
P6-25 未知の知識に対する事前学習済み言語モデルが持つ推論能力の調査
|
444 |
Q6-1 行動分類のためのコーパス構築と行動分析への応用
|
445 |
Q6-2 JAMSE:日本語LLM評価用の高品質な少サンプル日本語ベンチマークの作成および評価−GENIAC LLM開発コンペティションからの知見−
|
446 |
Q6-3 複数のLLMを用いた法令QAタスクのGround Truth Curation
|
|
|
540 |
Q7-20 農林業基準技術に含まれる表を対象としたPDF から CSV へ変換する際の課題分��
|
541 |
Q7-21 新型コロナワクチンをめぐるTwitter上の話題変化:テキスト精読と頻出単語分析による仮説構築とその検証
|
542 |
Q7-22 農林業基準技術文書を対象としたPDF解析ツールの表構造認識の性能評価
|
543 |
+
Q7-23 クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題
|
544 |
+
Q7-24 NAIST Simultaneous Interpretation Corpus: Development and Analyses of Data from Interpreters of Different Levels
|
545 |
A8-1 似た単語の知識ニューロンは似た形成過程を経る
|
546 |
A8-2 多角的な評価から大規模言語モデルにおける事実知識の想起の要因分析
|
547 |
A8-3 心理測定テストに関するLLMのメタ知識の検証
|
|
|
619 |
Q8-22 少量ショットに対する大規模言語モデル(LLM)を用いた人工データ生成による精度向上の試み
|
620 |
Q8-23 量子化 bit 幅の異なる基盤モデルに対する Adapter の転移性を活用した Low-Rank Adaptation
|
621 |
Q8-24 連合学習におけるLoRAの統合数と精度の関係の検証
|
622 |
+
Q8-25 Weighted Asymmetric Loss for Multi-Label Text Classification on Imbalanced Data
|
623 |
A9-1 段落単位の対訳データによる大規模言語モデルの翻訳精度向上
|
624 |
A9-2 対訳単語の対偶を考慮した文パターンの選択とNMTの効果
|
625 |
A9-3 特許請求項翻訳における単語対応に基づく節分割モデルの有効性
|
|
|
672 |
P9-20 行動認識の粒度アライメントに基づく予定の履行認識
|
673 |
P9-21 Psychological Investigation of Personality Knowledge in a Large Language Model
|
674 |
P9-22 関連研究節自動生成に向けた引用論文の最適配置
|
675 |
+
P9-23 近傍事例を用いた対話における感情認識
|
676 |
Q9-1 生成型自動要約の信頼性向上を目的とした数値情報の誤り検出と修正手法
|
677 |
Q9-2 言語のインクリメンタルな処理の仕組みは普遍的か?:投機性によるparsing strategy再考
|
678 |
Q9-3 近現代の日本語文学作品における発表年次の予測
|
|
|
695 |
Q9-20 大規模言語モデルを用いたStory Intention Graph の自動生成の精度改善
|
696 |
Q9-21 文の埋め込みに効果的な静的単語ベクトルの獲得
|
697 |
Q9-22 訓練不要な条件付きテキスト埋め込み
|
698 |
+
Q9-23 How Domain Adaptation of BERT Improves Syntactic Parsing of Math Text
|
699 |
+
Q9-24 Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
|
700 |
A10-1 Data Augmentation for Manipuri-English Neural Machine Translation
|
701 |
A10-2 llmMT+1: 非英語言語対 LLM 翻訳の実現法の検討
|
702 |
A10-3 Towards Equitable Translation: Gender Bias in Large Language Models
|
app.py
CHANGED
@@ -60,6 +60,7 @@ if __name__ == "__main__":
|
|
60 |
index.add(title_embeddings)
|
61 |
|
62 |
st.markdown("## NLP2025 論文検索")
|
|
|
63 |
input_text = st.text_input('query', '', placeholder='')
|
64 |
top_k = st.number_input('top_k', min_value=1, value=10, step=1)
|
65 |
|
|
|
60 |
index.add(title_embeddings)
|
61 |
|
62 |
st.markdown("## NLP2025 論文検索")
|
63 |
+
st.html(f"大会公式ページは<a href='https://www.anlp.jp/proceedings/annual_meeting/2025/' target='_blank'>こちら</a>")
|
64 |
input_text = st.text_input('query', '', placeholder='')
|
65 |
top_k = st.number_input('top_k', min_value=1, value=10, step=1)
|
66 |
|
scrape.py
CHANGED
@@ -1,6 +1,8 @@
|
|
1 |
from bs4 import BeautifulSoup
|
2 |
import requests
|
3 |
|
|
|
|
|
4 |
url = "https://www.anlp.jp/proceedings/annual_meeting/2025/"
|
5 |
|
6 |
response = requests.get(url)
|
@@ -18,8 +20,13 @@ for table in soup.find_all('table'):
|
|
18 |
title_span = tr.find('span', class_='title')
|
19 |
if pid_span and title_span:
|
20 |
pair = (pid_span.get_text(), title_span.get_text())
|
21 |
-
|
22 |
-
|
|
|
|
|
|
|
|
|
|
|
23 |
|
24 |
|
25 |
with open("anlp2025.tsv", "w") as f:
|
|
|
1 |
from bs4 import BeautifulSoup
|
2 |
import requests
|
3 |
|
4 |
+
import re
|
5 |
+
|
6 |
url = "https://www.anlp.jp/proceedings/annual_meeting/2025/"
|
7 |
|
8 |
response = requests.get(url)
|
|
|
20 |
title_span = tr.find('span', class_='title')
|
21 |
if pid_span and title_span:
|
22 |
pair = (pid_span.get_text(), title_span.get_text())
|
23 |
+
|
24 |
+
# 後処理
|
25 |
+
pattern = r'^([A-Z]\d+-\d+)'
|
26 |
+
match = re.match(pattern, pair[0])
|
27 |
+
|
28 |
+
if pair[0] and pair[1] and match:
|
29 |
+
extracted_pairs.append((match.group(1), pair[1]))
|
30 |
|
31 |
|
32 |
with open("anlp2025.tsv", "w") as f:
|