1.百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4
发布了超千亿参数的最新版本大模型Baichuan 3,是百川智能基础模型第三代——就在20天前,这家由王小川创办的大模型公司,刚刚发布过角色大模型Baichuan-NPC。
https://zhuanlan.zhihu.com/p/680504810
2.Meta官方的Prompt工程指南:Llama 2这样用更高效
随着大型语言模型(LLM)技术日渐成熟,提示工程(Prompt Engineering)变得越来越重要。一些研究机构发布了 LLM 提示工程指南,包括微软、OpenAI 等等。
最近,Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南,涵盖了 Llama 2 的快速工程和最佳实践。
3.从零手搓MoE大模型,大神级教程来了
分享了如何从头开始建立一套完整的MoE系统。
https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch
4.多模态大语言模型进展综述
总结26种MM-LLMs
https://twitter.com/omarsar0/status/1751705689964089616?s=20
5.测量大型模型中幻觉排行榜
https://twitter.com/Thom_Wolf/status/1751894416669790692?s=20
6.如何从头开始构建大型语言模型
从零开始一步步实现类似ChatGPT的大型语言模型(LLM)。
提供了Jupyter Notebook实现代码,使用Python和PyTorch。
开始于数据准备,使用开源数据集如BookCorpus,实现了字符级和词元级的预处理。
构建了 Transformer 模型,从简单的多头自注意力机制开始,逐步堆叠扩展网络。
实现了Masked Language Model等目标,进行模型训练。加入各种改进提高训练效果。
展示了一些使用训练好的模型生成文本的示例。效果接近ChatGPT。
模型训练非常耗时间,需要使用GPU集群加速。提供了使用AWS EC2的设置教程。
整个实现过程fullscreen,包括数据、模型构建、训练、生成文本等环节,可以帮助读者对训练LLM有进一步理解。