You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
본 논문에서는 먼저 style transfer 의 평가 방식에 몇가지 문제점이 있다는 것을 제시합니다.
style accuracy 와 의미 보존성(semantics preservation) 이 학습 할 때마다 많은 차이를 보입니다. 이를 보완하기 위해서 각 실험결과에 대해 여러번 re-run 해서 얻은 error margin 을 같이 제시해 주어야 합니다.
BLUE 와 style accuracy 는 style transfer task의 직접적인 objective 와는 거리가 있는 metric 입니다. 이러한 style-transfer task의 자연적인 특성 때문에, metric이 쉽게 조작될 수 있는 두개의 metric 간의 dependency가 생기게 됩니다.
이를 해결하기 위해서 input과 human-written reformulations 간의 BLEU를 취하는 방식을 제안하였습니다.
또한 이 metric의 관점에서 SOTA를 찍는 3가지 새로운 모델을 제시합니다.
Abstract (요약) 🕵🏻♂️
This paper shows that standard assessment methodology for style transfer has several significant problems. First, the standard metrics for style accuracy and semantics preservation vary significantly on different re-runs. Therefore one has to report error margins for the obtained results. Second, starting with certain values of bilingual evaluation understudy (BLEU) between input and output and accuracy of the sentiment transfer the optimization of these two standard metrics diverge from the intuitive goal of the style transfer task. Finally, due to the nature of the task itself, there is a specific dependence between these two metrics that could be easily manipulated. Under these circumstances, we suggest taking BLEU between input and human-written reformulations into consideration for benchmarks. We also propose three new architectures that outperform state of the art in terms of this metric.
이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔
현재 style transfer 의 evaluation method 를 신뢰할 수 있는지에 대해서 다시 한번 더 깊게 생각하게 됩니다.
저자가 제안한 새로운 방식의 evaluation method 가 왜 style-transfer 가 풀고자 하는 objective 를 명확하게 반영하는 method 인지 고민해 보고, 이에 대한 논리를 논문을 통해 파악해 볼 수 있습니다.
새로 제안된 method 의 관점에서 SOTA 모델들이 탄생한 배경에 대해서 생각해 볼 수 있습니다.
어떤 내용의 논문인가요? 👋
Abstract (요약) 🕵🏻♂️
This paper shows that standard assessment methodology for style transfer has several significant problems. First, the standard metrics for style accuracy and semantics preservation vary significantly on different re-runs. Therefore one has to report error margins for the obtained results. Second, starting with certain values of bilingual evaluation understudy (BLEU) between input and output and accuracy of the sentiment transfer the optimization of these two standard metrics diverge from the intuitive goal of the style transfer task. Finally, due to the nature of the task itself, there is a specific dependence between these two metrics that could be easily manipulated. Under these circumstances, we suggest taking BLEU between input and human-written reformulations into consideration for benchmarks. We also propose three new architectures that outperform state of the art in terms of this metric.
이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔
레퍼런스의 URL을 알려주세요! 🔗
https://arxiv.org/abs/1908.06809
The text was updated successfully, but these errors were encountered: