1.百川智能上新超千亿大模型Baichuan 3，冲榜成绩：若干中文任务超车GPT-4

发布了超千亿参数的最新版本大模型Baichuan 3，是百川智能基础模型第三代——就在20天前，这家由王小川创办的大模型公司，刚刚发布过角色大模型Baichuan-NPC。

2.Meta官方的Prompt工程指南：Llama 2这样用更高效

随着大型语言模型（LLM）技术日渐成熟，提示工程（Prompt Engineering）变得越来越重要。一些研究机构发布了 LLM 提示工程指南，包括微软、OpenAI 等等。

最近，Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南，涵盖了 Llama 2 的快速工程和最佳实践。

3.从零手搓MoE大模型，大神级教程来了

分享了如何从头开始建立一套完整的MoE系统。

4.多模态大语言模型进展综述

总结26种MM-LLMs

6.如何从头开始构建大型语言模型

从零开始一步步实现类似ChatGPT的大型语言模型(LLM)。

提供了Jupyter Notebook实现代码,使用Python和PyTorch。

开始于数据准备,使用开源数据集如BookCorpus,实现了字符级和词元级的预处理。

构建了 Transformer 模型,从简单的多头自注意力机制开始,逐步堆叠扩展网络。

实现了Masked Language Model等目标,进行模型训练。加入各种改进提高训练效果。

展示了一些使用训练好的模型生成文本的示例。效果接近ChatGPT。

模型训练非常耗时间,需要使用GPU集群加速。提供了使用AWS EC2的设置教程。

整个实现过程fullscreen,包括数据、模型构建、训练、生成文本等环节,可以帮助读者对训练LLM有进一步理解。

Provide feedback

Saved searches