Skip to content

Latest commit

 

History

History
52 lines (25 loc) · 2.18 KB

2024-01-29.md

File metadata and controls

52 lines (25 loc) · 2.18 KB

1.百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4

发布了超千亿参数的最新版本大模型Baichuan 3,是百川智能基础模型第三代——就在20天前,这家由王小川创办的大模型公司,刚刚发布过角色大模型Baichuan-NPC。

https://zhuanlan.zhihu.com/p/680504810

2.Meta官方的Prompt工程指南:Llama 2这样用更高效

随着大型语言模型(LLM)技术日渐成熟,提示工程(Prompt Engineering)变得越来越重要。一些研究机构发布了 LLM 提示工程指南,包括微软、OpenAI 等等。

最近,Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南,涵盖了 Llama 2 的快速工程和最佳实践。

https://github.com/facebookresearch/llama-recipes/blob/main/examples/Prompt_Engineering_with_Llama_2.ipynb?utm_source=twitter&utm_medium=organic_social&utm_campaign=llama&utm_content=video

3.从零手搓MoE大模型,大神级教程来了

分享了如何从头开始建立一套完整的MoE系统。

https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch

4.多模态大语言模型进展综述

总结26种MM-LLMs

https://twitter.com/omarsar0/status/1751705689964089616?s=20

5.测量大型模型中幻觉排行榜

https://twitter.com/Thom_Wolf/status/1751894416669790692?s=20

6.如何从头开始构建大型语言模型

从零开始一步步实现类似ChatGPT的大型语言模型(LLM)。

提供了Jupyter Notebook实现代码,使用Python和PyTorch。

开始于数据准备,使用开源数据集如BookCorpus,实现了字符级和词元级的预处理。

构建了 Transformer 模型,从简单的多头自注意力机制开始,逐步堆叠扩展网络。

实现了Masked Language Model等目标,进行模型训练。加入各种改进提高训练效果。

展示了一些使用训练好的模型生成文本的示例。效果接近ChatGPT。

模型训练非常耗时间,需要使用GPU集群加速。提供了使用AWS EC2的设置教程。

整个实现过程fullscreen,包括数据、模型构建、训练、生成文本等环节,可以帮助读者对训练LLM有进一步理解。

https://github.com/rasbt/LLMs-from-scratch