김영천 | 최장원 | 배창현 | 박성우 | 조예람 | 이소영B |
팀장 | 팀원 | 팀원 | 팀원 | 팀원 | 팀원 |
- Vscode, ssh server(RTX 3090/Ubuntu 20.04.6), pytorch
- Write Requirements
해당 대회는 Upstage AI Lab 과정에서 비공개로 진행된 내부 대회이며 일상 대화에 대한 요약을 효과적으로 생성하는 모델을 개발하는 대회입니다. 해당 대회에서 주어진 데이터셋은 영어 일상 대화 요약 Task에서 많이 활용되는 Dialogsum 데이터셋을 한국어로 번역한 데이터라는 점이 대회의 특징입니다.
요약문을 정확하게 평가할 수 있는 평가지표를 설계하는 것은 매우 어렵습니다. 왜나하면 요약문은 관점에 따라서 다르게 요약이 될 수 있기 때문입니다. 따라서 해당 대회에서는 예측된 요약 문장을 3개의 정답 요약 문장과 비교하여 metric의 평균 점수를 산출합니다.
본 대회에서는 ROUGE-1-F1, ROUGE-2-F1, ROUGE-L-F1, 총 3가지 종류의 metric으로부터 산출된 평균 점수를 더하여 최종 점수를 계산합니다. DialogSum 데이터셋은 Multi-Reference Dataset으로 multi-reference에 대한 average를 보는 것이 중요합니다. 따라서 데이터셋의 특성에 맞추어 최종 점수 산출도 평균을 활용했습니다. ROUGE 스코어는 단순히 예측된 요약문과 정답 요약문을 비교하여 맞춘 단어 갯수를 비교하는 평가지표입니다. 최종스코어 산출 방식은 아래와 같습니다.
- ex) Martch 8, 2024, 10:00 - Start Date
- ex) Martch 20, 2024, 19:00 - Final submission deadline
- Insert your directory structure
e.g.
├── code
│ ├── jupyter_notebooks
│ │ └── model_train.ipynb
│ └── train.py
├── docs
│ ├── pdf
│ │ └── (Template) [패스트캠퍼스] Upstage AI Lab 1기_그룹 스터디 .pptx
│ └── paper
└── input
└── data
├── eval
└── train
해당 데이터는 영어 일상 대화 데이터셋은 Dialogsum 데이터셋을 한국어로 번역한 데이터입니다. 대화문과 요약문을 포함하고 있으며 이러한 비정형 텍스트 데이터를 고려하여 모델을 훈련하고, 요약문의 생성 성능을 높이기 위한 최적의 방법을 찾아야 합니다.
Train Data 12457개, Valid Data 499개, Test Data 499개로 이루어져 있으며 발화자 및 여러 개인정보에 대해서 마스킹 처리가 돼 있는 것 또한 해당 데이터셋의 특징입니다.
정규식을 활용하여 잘못 마스킹된 데이터 및 순서가 이상한 데이터를 수정하였습니다.
GPT3.5 Api를 사용하여 데이터를 합성했습니다. 위 그림과 같이 GPT에게 Instruction을 주고 학습데이터에서 샘플링한 5개의 대화문-요약문 쌍데이터를 예시로 보여준 뒤 질문으로 1개의 대화문을 입력해 요약문을 생성했습니다.
- 기본적으로 좋은 성능을 보여줌
eenzeenee/t5-base-korean-summarization
- 해당 대회에서 수행하고자하는 Task인 요약에 대해서 많은 자료들로 사전에 Finetuning 돼 있었고 실제로 다른 T5 모델보다 좋은 성능을 보여주었습니다.
- Write model train and test process with capture
final_result: 40.4343
rouge1-F1: 0.4953
rouge2-F1: 0.3025
rougeL-F1: 0.4153
- ppt 폴더 참조