Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

加载模型的问题 #43

Open
LiangZhuuu opened this issue Sep 6, 2023 · 11 comments
Open

加载模型的问题 #43

LiangZhuuu opened this issue Sep 6, 2023 · 11 comments

Comments

@LiangZhuuu
Copy link

感谢作者的开源!想问一下如果我用的SFT模型是chatglm2,代码需要改动很多地方吗?

@GanjinZero
Copy link
Owner

没有用过哈,但是loss一共就几十行,应该很容易改。

@LiangZhuuu
Copy link
Author

没有用过哈,但是loss一共就几十行,应该很容易改。

好的谢谢!已经跑起来了,但有个问题是loss从第一个batch之后全是0.0了,这种情况合理吗?

@GanjinZero
Copy link
Owner

看起来不太对劲吧,你可以看下loss的两项具体是什么

@LiangZhuuu
Copy link
Author

看起来不太对劲吧,你可以看下loss的两项具体是什么

已经解决了!是精度的问题,现在有一个新的问题是在第一次保存checkpoint的时候报错CUDA out of memory,这是怎么回事呀?batch size=1,还有什么优化显存的空间吗?

@GanjinZero
Copy link
Owner

fp16?

@LiangZhuuu
Copy link
Author

fp16?

把bf16 & tf32换成fp16吗?

@GanjinZero
Copy link
Owner

fp16?

把bf16 & tf32换成fp16吗?

我写错了,我的意思就是bf16

@LiangZhuuu
Copy link
Author

LiangZhuuu commented Sep 15, 2023

想问一下rrhf训练完的模型为什么有点容易复读,可能是一段话一直复读,也可能是一个字符比如br、div一直重复输出。不知道是怎么回事,作者有碰到过类似的情况吗?

@GanjinZero
Copy link
Owner

没碰到啊……你也许需要(1)检查你的数据,有没有这种特别坏的回复(2)尝试调小对比学习项的权重

@LiangZhuuu
Copy link
Author

单条数据过长会导致oom吗? 7b模型有推荐的数据长度和model_max_length吗/(ㄒoㄒ)/

@GanjinZero
Copy link
Owner

会的;512?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants