- KeiCOコーパス[Liu and Kobayashi 22]を元に構築された敬語理解タスク評価データセット
- Chain-of-Thoughtプロンプティング[Wei+ 22]の有用性を検証するために、CoTあり/なしのテストセットをそれぞれ含む
- KeiCOからexplore_keico.ipynbと、手動でのフィルタリングおよびアノテーションでデータセットkeicot_base.tsvを作成
- データセット70件から、5種類の各設定で問題を生成し、350件のテストセットを作成
1. 背景情報:常体文が正 発言文:常体文 ラベル:正解
2. 背景情報:常体文が正 発言文:敬体文 ラベル:不正解
3. 背景情報:敬体文が正 発言文:常体文 ラベル:不正解
4. 背景情報:敬体文が正 発言文:敬体文 ラベル:正解
5. 背景情報:敬体文が正 発言文:誤った敬体文 ラベル:不正解
- zero-shot w/o CoT
- zero-shot w/ CoT
- few-shot w/o CoT
- few-shot w/ CoT (few-shot example num = 4)
- gpt-3.5-turbo
- gpt-4
temperature = 0.0
if do_cot:
max_tokens = 512
else:
max_tokens = 16
- 2023/08/31 正誤判定タスクでのテストセットと結果をアップ
The KeiCOT dataset is under CC-BY-4.0.