Skip to content

UpstageAILab/upstage-nlp-summarization-nlp-5

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 

Repository files navigation

Review Assignment Due Date

Title (Please modify the title)

Team

image image image image image image
김영천 최장원 배창현 박성우 조예람 이소영B
팀장 팀원 팀원 팀원 팀원 팀원

0. Overview

Environment

  • Vscode, ssh server(RTX 3090/Ubuntu 20.04.6), pytorch

Requirements

  • Write Requirements

1. Competiton Info

Overview

image 해당 대회는 Upstage AI Lab 과정에서 비공개로 진행된 내부 대회이며 일상 대화에 대한 요약을 효과적으로 생성하는 모델을 개발하는 대회입니다. 해당 대회에서 주어진 데이터셋은 영어 일상 대화 요약 Task에서 많이 활용되는 Dialogsum 데이터셋을 한국어로 번역한 데이터라는 점이 대회의 특징입니다.

Evaluation

요약문을 정확하게 평가할 수 있는 평가지표를 설계하는 것은 매우 어렵습니다. 왜나하면 요약문은 관점에 따라서 다르게 요약이 될 수 있기 때문입니다. 따라서 해당 대회에서는 예측된 요약 문장을 3개의 정답 요약 문장과 비교하여 metric의 평균 점수를 산출합니다.

본 대회에서는 ROUGE-1-F1, ROUGE-2-F1, ROUGE-L-F1, 총 3가지 종류의 metric으로부터 산출된 평균 점수를 더하여 최종 점수를 계산합니다. DialogSum 데이터셋은 Multi-Reference Dataset으로 multi-reference에 대한 average를 보는 것이 중요합니다. 따라서 데이터셋의 특성에 맞추어 최종 점수 산출도 평균을 활용했습니다. ROUGE 스코어는 단순히 예측된 요약문과 정답 요약문을 비교하여 맞춘 단어 갯수를 비교하는 평가지표입니다. 최종스코어 산출 방식은 아래와 같습니다. image

Timeline(2 weeks)

  • ex) Martch 8, 2024, 10:00 - Start Date
  • ex) Martch 20, 2024, 19:00 - Final submission deadline

2. Components

Directory

  • Insert your directory structure

e.g.

├── code
│   ├── jupyter_notebooks
│   │   └── model_train.ipynb
│   └── train.py
├── docs
│   ├── pdf
│   │   └── (Template) [패스트캠퍼스] Upstage AI Lab 1기_그룹 스터디 .pptx
│   └── paper
└── input
    └── data
        ├── eval
        └── train

3. Data descrption

Dataset overview

image 해당 데이터는 영어 일상 대화 데이터셋은 Dialogsum 데이터셋을 한국어로 번역한 데이터입니다. 대화문과 요약문을 포함하고 있으며 이러한 비정형 텍스트 데이터를 고려하여 모델을 훈련하고, 요약문의 생성 성능을 높이기 위한 최적의 방법을 찾아야 합니다.

Train Data 12457개, Valid Data 499개, Test Data 499개로 이루어져 있으며 발화자 및 여러 개인정보에 대해서 마스킹 처리가 돼 있는 것 또한 해당 데이터셋의 특징입니다.

EDA

샘플데이터

Train, Valid, Test 대화문 및 요약문 길이 비교

Data cleansing

05 정규식을 활용하여 잘못 마스킹된 데이터 및 순서가 이상한 데이터를 수정하였습니다.

Data Processing

GPT3.5 Api를 사용하여 데이터를 합성했습니다. 위 그림과 같이 GPT에게 Instruction을 주고 학습데이터에서 샘플링한 5개의 대화문-요약문 쌍데이터를 예시로 보여준 뒤 질문으로 1개의 대화문을 입력해 요약문을 생성했습니다.

4. Modeling

Model descrition

digit82/kobart-summarization

  • 기본적으로 좋은 성능을 보여줌

eenzeenee/t5-base-korean-summarization

  • 해당 대회에서 수행하고자하는 Task인 요약에 대해서 많은 자료들로 사전에 Finetuning 돼 있었고 실제로 다른 T5 모델보다 좋은 성능을 보여주었습니다.

Modeling Process

  • Write model train and test process with capture

5. Result

Leader Board

07
final_result: 40.4343
rouge1-F1: 0.4953
rouge2-F1: 0.3025
rougeL-F1: 0.4153

Presentation

  • ppt 폴더 참조

etc

Reference

About

upstage-nlp-summarization-nlp-5 created by GitHub Classroom

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published