Skip to content

ynklab/KeiCOT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

KeiCOT

  • KeiCOコーパス[Liu and Kobayashi 22]を元に構築された敬語理解タスク評価データセット
  • Chain-of-Thoughtプロンプティング[Wei+ 22]の有用性を検証するために、CoTあり/なしのテストセットをそれぞれ含む

Problems

  • KeiCOからexplore_keico.ipynbと、手動でのフィルタリングおよびアノテーションでデータセットkeicot_base.tsvを作成
  • データセット70件から、5種類の各設定で問題を生成し、350件のテストセットを作成
1. 背景情報:常体文が正 発言文:常体文 ラベル:正解
2. 背景情報:常体文が正 発言文:敬体文 ラベル:不正解
3. 背景情報:敬体文が正 発言文:常体文 ラベル:不正解
4. 背景情報:敬体文が正 発言文:敬体文 ラベル:正解 
5. 背景情報:敬体文が正 発言文:誤った敬体文 ラベル:不正解

Prompt settings

  • zero-shot w/o CoT
  • zero-shot w/ CoT
  • few-shot w/o CoT
  • few-shot w/ CoT (few-shot example num = 4)

Predictions

Models

  • gpt-3.5-turbo
  • gpt-4

Hyperparameters

temperature = 0.0

if do_cot:
    max_tokens = 512
else:
    max_tokens = 16

Update

  • 2023/08/31 正誤判定タスクでのテストセットと結果をアップ

LICENSE

The KeiCOT dataset is under CC-BY-4.0.