Title (Please modify the title)

Team


김영천	최장원	배창현	박성우	조예람	이소영B
팀장	팀원	팀원	팀원	팀원	팀원

0. Overview

Environment

Vscode, ssh server(RTX 3090/Ubuntu 20.04.6), pytorch

Requirements

Write Requirements

1. Competiton Info

Overview

해당 대회는 Upstage AI Lab 과정에서 비공개로 진행된 내부 대회이며 일상 대화에 대한 요약을 효과적으로 생성하는 모델을 개발하는 대회입니다. 해당 대회에서 주어진 데이터셋은 영어 일상 대화 요약 Task에서 많이 활용되는 Dialogsum 데이터셋을 한국어로 번역한 데이터라는 점이 대회의 특징입니다.

Evaluation

요약문을 정확하게 평가할 수 있는 평가지표를 설계하는 것은 매우 어렵습니다. 왜나하면 요약문은 관점에 따라서 다르게 요약이 될 수 있기 때문입니다. 따라서 해당 대회에서는 예측된 요약 문장을 3개의 정답 요약 문장과 비교하여 metric의 평균 점수를 산출합니다.

본 대회에서는 ROUGE-1-F1, ROUGE-2-F1, ROUGE-L-F1, 총 3가지 종류의 metric으로부터 산출된 평균 점수를 더하여 최종 점수를 계산합니다. DialogSum 데이터셋은 Multi-Reference Dataset으로 multi-reference에 대한 average를 보는 것이 중요합니다. 따라서 데이터셋의 특성에 맞추어 최종 점수 산출도 평균을 활용했습니다. ROUGE 스코어는 단순히 예측된 요약문과 정답 요약문을 비교하여 맞춘 단어 갯수를 비교하는 평가지표입니다. 최종스코어 산출 방식은 아래와 같습니다.

Timeline(2 weeks)

ex) Martch 8, 2024, 10:00 - Start Date
ex) Martch 20, 2024, 19:00 - Final submission deadline

2. Components

3. Data descrption

Dataset overview

해당 데이터는 영어 일상 대화 데이터셋은 Dialogsum 데이터셋을 한국어로 번역한 데이터입니다. 대화문과 요약문을 포함하고 있으며 이러한 비정형 텍스트 데이터를 고려하여 모델을 훈련하고, 요약문의 생성 성능을 높이기 위한 최적의 방법을 찾아야 합니다.

Train Data 12457개, Valid Data 499개, Test Data 499개로 이루어져 있으며 발화자 및 여러 개인정보에 대해서 마스킹 처리가 돼 있는 것 또한 해당 데이터셋의 특징입니다.

EDA

샘플데이터

Train, Valid, Test 대화문 및 요약문 길이 비교

Data cleansing

정규식을 활용하여 잘못 마스킹된 데이터 및 순서가 이상한 데이터를 수정하였습니다.

Data Processing

GPT3.5 Api를 사용하여 데이터를 합성했습니다. 위 그림과 같이 GPT에게 Instruction을 주고 학습데이터에서 샘플링한 5개의 대화문-요약문 쌍데이터를 예시로 보여준 뒤 질문으로 1개의 대화문을 입력해 요약문을 생성했습니다.

4. Modeling

Model descrition

digit82/kobart-summarization

기본적으로 좋은 성능을 보여줌

eenzeenee/t5-base-korean-summarization

해당 대회에서 수행하고자하는 Task인 요약에 대해서 많은 자료들로 사전에 Finetuning 돼 있었고 실제로 다른 T5 모델보다 좋은 성능을 보여주었습니다.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
ppt		ppt
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Title (Please modify the title)

Team

0. Overview

Environment

Requirements

1. Competiton Info

Overview

Evaluation

Timeline(2 weeks)

2. Components

Directory

3. Data descrption

Dataset overview

EDA

샘플데이터

Train, Valid, Test 대화문 및 요약문 길이 비교

Data cleansing

Data Processing

4. Modeling

Model descrition

Modeling Process

5. Result

Leader Board

Presentation

etc

Reference

About

Releases

Packages

UpstageAILab/upstage-nlp-summarization-nlp-5

Folders and files

Latest commit

History

Repository files navigation

Title (Please modify the title)

Team

0. Overview

Environment

Requirements

1. Competiton Info

Overview

Evaluation

Timeline(2 weeks)

2. Components

Directory

3. Data descrption

Dataset overview

EDA

샘플데이터

Train, Valid, Test 대화문 및 요약문 길이 비교

Data cleansing

Data Processing

4. Modeling

Model descrition

Modeling Process

5. Result

Leader Board

Presentation

etc

Reference

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages