kaisugi commited on
Commit
0e31147
·
1 Parent(s): ffb2a92
Files changed (3) hide show
  1. anlp2025.tsv +14 -14
  2. app.py +1 -0
  3. scrape.py +9 -2
anlp2025.tsv CHANGED
@@ -51,7 +51,7 @@ P1-20 低資源言語のニュース機械翻訳のためのLLM を用いた合
51
  P1-21 対訳データを用いた大規模言語モデルの継続事前訓練による特許請求項翻訳
52
  P1-22 AoGu: A Japanese-English literary parallel corpus from Aozora Bunko and Project Gutenberg
53
  P1-23 修辞構造に基づく分割統治型LLM翻訳
54
- P1-24💻 Word order of subject, object, oblique, and verb
55
  Q1-1 書き手の孤独感を予測できるか?
56
  Q1-2 BCCWJ-WLSP-LUW:『現代日本語書き言葉均衡コーパス』に対する長単位語義情報アノテーション
57
  Q1-3 JETHICS: 日本語道徳理解度評価用データセット
@@ -74,8 +74,8 @@ Q1-19 大規模画像言語モデルは物体の裏側を認識できるか?
74
  Q1-20 「現代日本語書き言葉均衡コーパス」の拡張―BCCWJ2の構築―
75
  Q1-21 SciGA: 学術論文における Graphical Abstract 設計支援のための統合データセット
76
  Q1-22 否定の観点からみた日本語言語理解ベンチマークの評価
77
- Q1-23J オンライン誹謗中傷検出に向けた裁判例データセット
78
- Q1-24J MATCHA:専門家が平易化した記事を用いたやさしい日本語パラレルコーパス
79
  A2-1 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する
80
  A2-2 オープン日本語LLMリーダーボードの構築と評価結果の分析
81
  A2-3 pfgen-bench: 日本語事前学習モデルのための文章生成性能評価ベンチマーク
@@ -128,7 +128,7 @@ P2-22 単語埋め込みの独立成分分析の軸が解釈できる粒度は
128
  P2-23 ニューロン経験勾配によるモデル出力の制御と言語知識表現の統合
129
  P2-24 Wikipediaリダイレクト情報を活用したエンティティベース質問応答データセットの構築
130
  P2-25 TrendScape 1.0: 言語モデルの潜在空間上の概念探索
131
- P2-26💻 紙とデジタルの違いが書く活動に及ぼす影響:漢字・熟語・慣用表現・四字熟語を対象に
132
  Q2-1 JHACE: Human-AI Collaborationの評価法の提案,及び,対人スキルの影響の調査
133
  Q2-2 LLMの安全性における大規模人手評価
134
  Q2-3 AnswerCarefully: 日本語LLM安全性向上のためのデータセット
@@ -385,8 +385,8 @@ Q5-20 Iterative Graph-to-Text Generation with Contextualization for Scientific A
385
  Q5-21 テキスト埋め込みからのテキスト復元における予測制御の援用の効果検証
386
  Q5-22 LLMを用いた発話生成のキャラクター性付与におけるプロンプトとファインチューニングの効果比較
387
  Q5-23 Faissを用いたデータ拡張によるポジティブテキストリフレーミングの精度向上
388
- Q5-24J 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用
389
- Q5-25J Bidirectional Transformer Reranker for Grammatical Error Correction
390
  A6-1 スパースオートエンコーダーを用いた大規模言語モデルのチェックポイント横断分析
391
  A6-2 大規模言語モデルにおいて数値属性間で共有されるスケーリングベクトルの解析とその応用
392
  A6-3 競技クイズにおけるLLMと人間の誤答傾向の分析と比較
@@ -439,8 +439,8 @@ P6-20 災害時のソーシャルメディアを対象とした場所参照表
439
  P6-21 LLMを用いたクロールデータからの人物略歴文抽出
440
  P6-22 URL引用の要否判定において学習データの品質とドメインが与える影響の分析
441
  P6-23 時相論理を用いた物語のエンティティ状態検索
442
- P6-24J シソーラスの階層的構造を利用した弱教師あり固有表現抽出
443
- P6-25J 未知の知識に対する事前学習済み言語モデルが持つ推論能力の調査
444
  Q6-1 行動分類のためのコーパス構築と行動分析への応用
445
  Q6-2 JAMSE:日本語LLM評価用の高品質な少サンプル日本語ベンチマークの作成および評価−GENIAC LLM開発コンペティションからの知見−
446
  Q6-3 複数のLLMを用いた法令QAタスクのGround Truth Curation
@@ -540,8 +540,8 @@ Q7-19 拡張現実を用いた歩行型音声対話エージェント
540
  Q7-20 農林業基準技術に含まれる表を対象としたPDF から CSV へ変換する際の課題分��
541
  Q7-21 新型コロナワクチンをめぐるTwitter上の話題変化:テキスト精読と頻出単語分析による仮説構築とその検証
542
  Q7-22 農林業基準技術文書を対象としたPDF解析ツールの表構造認識の性能評価
543
- Q7-23J クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題
544
- Q7-24J NAIST Simultaneous Interpretation Corpus: Development and Analyses of Data from Interpreters of Different Levels
545
  A8-1 似た単語の知識ニューロンは似た形成過程を経る
546
  A8-2 多角的な評価から大規模言語モデルにおける事実知識の想起の要因分析
547
  A8-3 心理測定テストに関するLLMのメタ知識の検証
@@ -619,7 +619,7 @@ Q8-21 模倣学習による大規模言語モデルの指示チューニング
619
  Q8-22 少量ショットに対する大規模言語モデル(LLM)を用いた人工データ生成による精度向上の試み
620
  Q8-23 量子化 bit 幅の異なる基盤モデルに対する Adapter の転移性を活用した Low-Rank Adaptation
621
  Q8-24 連合学習におけるLoRAの統合数と精度の関係の検証
622
- Q8-25J Weighted Asymmetric Loss for Multi-Label Text Classification on Imbalanced Data
623
  A9-1 段落単位の対訳データによる大規模言語モデルの翻訳精度向上
624
  A9-2 対訳単語の対偶を考慮した文パターンの選択とNMTの効果
625
  A9-3 特許請求項翻訳における単語対応に基づく節分割モデルの有効性
@@ -672,7 +672,7 @@ P9-19 TEPPAY: ゲームのプレイ動画を入力とする実況AI Tuberシス
672
  P9-20 行動認識の粒度アライメントに基づく予定の履行認識
673
  P9-21 Psychological Investigation of Personality Knowledge in a Large Language Model
674
  P9-22 関連研究節自動生成に向けた引用論文の最適配置
675
- P9-23J 近傍事例を用いた対話における感情認識
676
  Q9-1 生成型自動要約の信頼性向上を目的とした数値情報の誤り検出と修正手法
677
  Q9-2 言語のインクリメンタルな処理の仕組みは普遍的か?:投機性によるparsing strategy再考
678
  Q9-3 近現代の日本語文学作品における発表年次の予測
@@ -695,8 +695,8 @@ Q9-19 自動ファクトチェックのための事実の分解による含意
695
  Q9-20 大規模言語モデルを用いたStory Intention Graph の自動生成の精度改善
696
  Q9-21 文の埋め込みに効果的な静的単語ベクトルの獲得
697
  Q9-22 訓練不要な条件付きテキスト埋め込み
698
- Q9-23J How Domain Adaptation of BERT Improves Syntactic Parsing of Math Text
699
- Q9-24J Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
700
  A10-1 Data Augmentation for Manipuri-English Neural Machine Translation
701
  A10-2 llmMT+1: 非英語言語対 LLM 翻訳の実現法の検討
702
  A10-3 Towards Equitable Translation: Gender Bias in Large Language Models
 
51
  P1-21 対訳データを用いた大規模言語モデルの継続事前訓練による特許請求項翻訳
52
  P1-22 AoGu: A Japanese-English literary parallel corpus from Aozora Bunko and Project Gutenberg
53
  P1-23 修辞構造に基づく分割統治型LLM翻訳
54
+ P1-24 Word order of subject, object, oblique, and verb
55
  Q1-1 書き手の孤独感を予測できるか?
56
  Q1-2 BCCWJ-WLSP-LUW:『現代日本語書き言葉均衡コーパス』に対する長単位語義情報アノテーション
57
  Q1-3 JETHICS: 日本語道徳理解度評価用データセット
 
74
  Q1-20 「現代日本語書き言葉均衡コーパス」の拡張―BCCWJ2の構築―
75
  Q1-21 SciGA: 学術論文における Graphical Abstract 設計支援のための統合データセット
76
  Q1-22 否定の観点からみた日本語言語理解ベンチマークの評価
77
+ Q1-23 オンライン誹謗中傷検出に向けた裁判例データセット
78
+ Q1-24 MATCHA:専門家が平易化した記事を用いたやさしい日本語パラレルコーパス
79
  A2-1 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する
80
  A2-2 オープン日本語LLMリーダーボードの構築と評価結果の分析
81
  A2-3 pfgen-bench: 日本語事前学習モデルのための文章生成性能評価ベンチマーク
 
128
  P2-23 ニューロン経験勾配によるモデル出力の制御と言語知識表現の統合
129
  P2-24 Wikipediaリダイレクト情報を活用したエンティティベース質問応答データセットの構築
130
  P2-25 TrendScape 1.0: 言語モデルの潜在空間上の概念探索
131
+ P2-26 紙とデジタルの違いが書く活動に及ぼす影響:漢字・熟語・慣用表現・四字熟語を対象に
132
  Q2-1 JHACE: Human-AI Collaborationの評価法の提案,及び,対人スキルの影響の調査
133
  Q2-2 LLMの安全性における大規模人手評価
134
  Q2-3 AnswerCarefully: 日本語LLM安全性向上のためのデータセット
 
385
  Q5-21 テキスト埋め込みからのテキスト復元における予測制御の援用の効果検証
386
  Q5-22 LLMを用いた発話生成のキャラクター性付与におけるプロンプトとファインチューニングの効果比較
387
  Q5-23 Faissを用いたデータ拡張によるポジティブテキストリフレーミングの精度向上
388
+ Q5-24 日本語ニュース記事要約支援に向けたドメイン特化事前学習済みモデルの構築と活用
389
+ Q5-25 Bidirectional Transformer Reranker for Grammatical Error Correction
390
  A6-1 スパースオートエンコーダーを用いた大規模言語モデルのチェックポイント横断分析
391
  A6-2 大規模言語モデルにおいて数値属性間で共有されるスケーリングベクトルの解析とその応用
392
  A6-3 競技クイズにおけるLLMと人間の誤答傾向の分析と比較
 
439
  P6-21 LLMを用いたクロールデータからの人物略歴文抽出
440
  P6-22 URL引用の要否判定において学習データの品質とドメインが与える影響の分析
441
  P6-23 時相論理を用いた物語のエンティティ状態検索
442
+ P6-24 シソーラスの階層的構造を利用した弱教師あり固有表現抽出
443
+ P6-25 未知の知識に対する事前学習済み言語モデルが持つ推論能力の調査
444
  Q6-1 行動分類のためのコーパス構築と行動分析への応用
445
  Q6-2 JAMSE:日本語LLM評価用の高品質な少サンプル日本語ベンチマークの作成および評価−GENIAC LLM開発コンペティションからの知見−
446
  Q6-3 複数のLLMを用いた法令QAタスクのGround Truth Curation
 
540
  Q7-20 農林業基準技術に含まれる表を対象としたPDF から CSV へ変換する際の課題分��
541
  Q7-21 新型コロナワクチンをめぐるTwitter上の話題変化:テキスト精読と頻出単語分析による仮説構築とその検証
542
  Q7-22 農林業基準技術文書を対象としたPDF解析ツールの表構造認識の性能評価
543
+ Q7-23 クイズコンペティションの結果分析から見た日本語質問応答の到達点と課題
544
+ Q7-24 NAIST Simultaneous Interpretation Corpus: Development and Analyses of Data from Interpreters of Different Levels
545
  A8-1 似た単語の知識ニューロンは似た形成過程を経る
546
  A8-2 多角的な評価から大規模言語モデルにおける事実知識の想起の要因分析
547
  A8-3 心理測定テストに関するLLMのメタ知識の検証
 
619
  Q8-22 少量ショットに対する大規模言語モデル(LLM)を用いた人工データ生成による精度向上の試み
620
  Q8-23 量子化 bit 幅の異なる基盤モデルに対する Adapter の転移性を活用した Low-Rank Adaptation
621
  Q8-24 連合学習におけるLoRAの統合数と精度の関係の検証
622
+ Q8-25 Weighted Asymmetric Loss for Multi-Label Text Classification on Imbalanced Data
623
  A9-1 段落単位の対訳データによる大規模言語モデルの翻訳精度向上
624
  A9-2 対訳単語の対偶を考慮した文パターンの選択とNMTの効果
625
  A9-3 特許請求項翻訳における単語対応に基づく節分割モデルの有効性
 
672
  P9-20 行動認識の粒度アライメントに基づく予定の履行認識
673
  P9-21 Psychological Investigation of Personality Knowledge in a Large Language Model
674
  P9-22 関連研究節自動生成に向けた引用論文の最適配置
675
+ P9-23 近傍事例を用いた対話における感情認識
676
  Q9-1 生成型自動要約の信頼性向上を目的とした数値情報の誤り検出と修正手法
677
  Q9-2 言語のインクリメンタルな処理の仕組みは普遍的か?:投機性によるparsing strategy再考
678
  Q9-3 近現代の日本語文学作品における発表年次の予測
 
695
  Q9-20 大規模言語モデルを用いたStory Intention Graph の自動生成の精度改善
696
  Q9-21 文の埋め込みに効果的な静的単語ベクトルの獲得
697
  Q9-22 訓練不要な条件付きテキスト埋め込み
698
+ Q9-23 How Domain Adaptation of BERT Improves Syntactic Parsing of Math Text
699
+ Q9-24 Semantic Shift Stability: 学習コーパス内の単語の意味変化を用いた事前学習済みモデルの時系列性能劣化の監査
700
  A10-1 Data Augmentation for Manipuri-English Neural Machine Translation
701
  A10-2 llmMT+1: 非英語言語対 LLM 翻訳の実現法の検討
702
  A10-3 Towards Equitable Translation: Gender Bias in Large Language Models
app.py CHANGED
@@ -60,6 +60,7 @@ if __name__ == "__main__":
60
  index.add(title_embeddings)
61
 
62
  st.markdown("## NLP2025 論文検索")
 
63
  input_text = st.text_input('query', '', placeholder='')
64
  top_k = st.number_input('top_k', min_value=1, value=10, step=1)
65
 
 
60
  index.add(title_embeddings)
61
 
62
  st.markdown("## NLP2025 論文検索")
63
+ st.html(f"大会公式ページは<a href='https://www.anlp.jp/proceedings/annual_meeting/2025/' target='_blank'>こちら</a>")
64
  input_text = st.text_input('query', '', placeholder='')
65
  top_k = st.number_input('top_k', min_value=1, value=10, step=1)
66
 
scrape.py CHANGED
@@ -1,6 +1,8 @@
1
  from bs4 import BeautifulSoup
2
  import requests
3
 
 
 
4
  url = "https://www.anlp.jp/proceedings/annual_meeting/2025/"
5
 
6
  response = requests.get(url)
@@ -18,8 +20,13 @@ for table in soup.find_all('table'):
18
  title_span = tr.find('span', class_='title')
19
  if pid_span and title_span:
20
  pair = (pid_span.get_text(), title_span.get_text())
21
- if pair[0] and pair[1]:
22
- extracted_pairs.append(pair)
 
 
 
 
 
23
 
24
 
25
  with open("anlp2025.tsv", "w") as f:
 
1
  from bs4 import BeautifulSoup
2
  import requests
3
 
4
+ import re
5
+
6
  url = "https://www.anlp.jp/proceedings/annual_meeting/2025/"
7
 
8
  response = requests.get(url)
 
20
  title_span = tr.find('span', class_='title')
21
  if pid_span and title_span:
22
  pair = (pid_span.get_text(), title_span.get_text())
23
+
24
+ # 後処理
25
+ pattern = r'^([A-Z]\d+-\d+)'
26
+ match = re.match(pattern, pair[0])
27
+
28
+ if pair[0] and pair[1] and match:
29
+ extracted_pairs.append((match.group(1), pair[1]))
30
 
31
 
32
  with open("anlp2025.tsv", "w") as f: