Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关键参数如何根据实体分布不同做调整 #11

Open
pmouren opened this issue Feb 15, 2021 · 2 comments
Open

关键参数如何根据实体分布不同做调整 #11

pmouren opened this issue Feb 15, 2021 · 2 comments

Comments

@pmouren
Copy link

pmouren commented Feb 15, 2021

作者您好,我尝试了将PU算法这篇复现到中文数据集ResumeNER上,当时通过不断尝试loss的权重参数和正例的比例参数成功了一类,但是其他几类就无法复现了,对于这两个参数的选择感觉也很玄学,所以想请教一下您这两个参数具体的设置原理是什么以及您是否有在中文数据集上做过尝试,万分感谢!

@v-mipeng
Copy link
Owner

这两个参数的作用效果有重叠,增大这两个参数值都会增加正类的权重,所以调参的时候考虑固定一个参数,只调整其中一个参数。调重参数可以分析一下p r f1 值,如果p值大而r值小考虑减小正类权重,否则降低权重。另外建议你分析一下词典的特性,是否覆盖面太小导致词典标注的数据没有代表性,如果是的话考虑扩充词典。词典标注是否错误率太高,是的话考虑筛选词典。最后,我们没有在中文数据集上做过实验,所以没有复现一说:)。

@pmouren
Copy link
Author

pmouren commented Feb 18, 2021

这两个参数的作用效果有重叠,增大这两个参数值都会增加正类的权重,所以调参的时候考虑固定一个参数,只调整其中一个参数。调重参数可以分析一下p r f1 值,如果p值大而r值小考虑减小正类权重,否则降低权重。另外建议你分析一下词典的特性,是否覆盖面太小导致词典标注的数据没有代表性,如果是的话考虑扩充词典。词典标注是否错误率太高,是的话考虑筛选词典。最后,我们没有在中文数据集上做过实验,所以没有复现一说:)。

嗯嗯,懂了,感谢回答!!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants