Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Multiple Text Style Transfer by using Word-level Conditional Generative Adversarial Network with Two-Phase Training #25

Closed
codertimo opened this issue Jan 12, 2020 · 1 comment

Comments

@codertimo
Copy link
Owner

codertimo commented Jan 12, 2020

어떤 내용의 논문인가요? 👋

  • style transfer 시에 GAN 방식으로 학습하는 것은 유명한 접근법임. 하지만 기존 연구들에서는 content 가 잘 보존되지 않는 문제가 있었습니다.
  • 본 논문에서는 GAN 을 바탕으로 word-level 단위의 conditional architecture 를 제안하며 2단개의 학습 procedure 를 갖는 새로운 adversarial training 기법을 소개합니다.
  • 단어 생성 이전에 style 에 condition을 주는 구조를 통해, style 관련 없는 단어들은 유지하면서 (content preserving) style transfer 를 가능하게 하였습니다.
  • 학습 과정을 reconstruction 과 transfer 단계를 나누었는데 이를 통해서 두 loss 의 밸런스를 맞출 수 있었습니다.
  • 실험은 sentiment transfer and multiple-attribute transfer tasks 에서 진행하였습니다. transfer accuracy and fluency 에서 우수한 성적을 보여 주었으며, 또한 content compatibility에 있어서 기존 3개의 benchmark 에서 SOTA 를 달성했음

Abstract (요약) 🕵🏻‍♂️

The objective of non-parallel text style transfer, or controllable text generation, is to alter specific attributes (e.g. sentiment, mood, tense, politeness, etc) of a given text while preserving its remaining attributes and content. Generative adversarial network (GAN) is a popular model to ensure the transferred sentences are realistic and have the desired target styles. However, training GAN often suffers from mode collapse problem, which causes that the transferred text is little related to the original text. In this paper, we propose a new GAN model with a word-level conditional architecture and a two-phase training procedure. By using a style-related condition architecture before generating a word, our model is able to maintain style-unrelated words while changing the others. By separating the training procedure into reconstruction and transfer phases, our model is able to learn a proper text generation process, which further improves the content preservation. We test our model on polarity sentiment transfer and multiple-attribute transfer tasks. The empirical results show that our model achieves comparable evaluation scores in both transfer accuracy and fluency but significantly outperforms other state-of-the-art models in content compatibility on three real-world datasets.

이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔

  • 기존의 GAN 방식의 style transfer method와 어떤 점에 있어서 차이가 있는지 알아 볼 수 있습니다.
  • word 단위의 접근이 얼마나 유효한지 알아 볼 수 있습니다. 보다 자세하게는, word 단위로 진행하게 되면 fluency 가 낮아지는 문제가 생길 수 있는데 이를 어떻게 해결하였는지 알아 볼 수 있습니다.

레퍼런스의 URL을 알려주세요! 🔗

https://www.aclweb.org/anthology/D19-1366/

@codertimo
Copy link
Owner Author

Motivation

  • 기존 unsupervised style transfer 에서 content preservation 문제를 해결하고자 합니다.
  • 이에 대한 대응으로서 word 단위에서 style 과 관련있는 단어들만 변경될 수 있도록 합니다.

Method

스크린샷 2020-01-12 오후 7 33 07

  • word 를 generation 하기에 앞서서, 이 단어가 style 과 관련이 있는지 classification 하는 모델을 추가합니다
  • reconstruction, transfer phase 를 분리함으로서 두개의 loss 의 balance 를 이전보다 더 잘 맞추게 되었습니다.

Experiment

  • Yelp, Amazone 에서 sentiment 부분 점수는 DAR(Transforming Delete, Retrieve, Generate Approach for Controlled Text Style Transfer #12) 보다 낮았지만, 다른 모델들 보다 BLEU 에서 압도적인 성능을 보여 주었습니다. 다만 PPL 이 다른 테스크보다 높은 것을 보면 fluency 는 확연하게 떨어지는 모습입니다.
  • Multi Attribute 에서는 sentiment, BLEU 점수에서도 SOTA를 보여주었습니다. 다만 위와 같이 PPL 이 비교적 높은 것이 관찰 되며 fluency 에 대한 의문점이 남습니다.
  • Human Evaluation 에서 역시 다른 모델에 비해 content preservation 은 높았으나, 이전 연구들에 비해 fluency 는 상대적으로 낮았으며, sentiment 부분에서 역시 상대적으로 낮은 만족도를 보였습니다.

Comment

  • 개인적으로는 이 모델이 어떤 novelty 가 있는지 확신이 서지 않습니다. 기존에도 GAN을 이용한 학습 방법들은 꽤 존재 했었는데 sentiment gate, 2-step-train-phase 가 얼마나 큰 novelty 인지는 개인적으로 궁금합니다. (EMNLP 는 closed review 시스템이어서 어떤 코멘트들이 오갔는지 궁금하네요)
  • content preservation 는 어느정도 해결을 했으나 그에 비해 fluency, sentiment 점수가 많이 떨어지면서 유효한 모델인지에 대한 의구심이 더욱 커졌습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant