title | thumbnail | authors | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
数据好合:回望与展望 |
/blog/assets/dibt/thumbnail.png |
|
过去的几个月里,我们一直致力于数据好合计划。我们的目标是:通过 Hugging Face 和 Argilla 的合作以及开源机器学习社区的支持,赋能开源社区共建有影响力的数据集。
现在,我们决定朝着既定目标继续前进。在此,我们简要向大家报告一下我们已有的成就和后续的任务,以确保人人都对其有一定的了解并能够为此作出贡献。为清晰起见,下文将我们的工作分为两个部分:社区工作和攻略工作。
此项工作的首要重点是提示词排名项目。其目标是创建一个包含 10K 个提示的数据集,包括合成提示以及人工生成提示,并对它们按质量进行排名。社区很快对此作出了响应!
- 仅用几天,就有超 385 人加入。
- 我们发布了 DIBT/10k_prompts_ranked 数据集,以用于提示排名任务或生成合成数据。
- 该数据集已被用于训练新的模型,如 SPIN。
我们发现社区支持来自全球,因此意识到仅以英语为中心的数据是不够的,我们现在缺乏足够的针对特定语言的开放 LLM 基准。因此,我们创建了多语种提示词评估项目(Multilingual Prompt Evaluation Project,MPEP),旨在开发多语种的排行榜。为此,我们从 DIBT/10k_prompts_ranked 中精选了 500 个高质量提示词,将它们翻译成不同的语言。
展望未来,我们将致力于持续完善工具和文档,以支持社区构建更多开放数据集。
作为 DIBT 计划的一部分,我们还创建了指南及工具以帮助社区自行构建有价值的数据集。
- 特定领域数据集:将工程师和领域专家聚拢到一起,为创建更多特定领域数据集做一些开路性质的工作,以助力领域模型的训练。
- DPO/ORPO 数据集:助力培育社区,为不同语种、领域和任务构建更多 DPO 风格的数据集。
- KTO 数据集:助力社区创建自己的 KTO 数据集。
- 社区渴望参与这些工作,并且对集智工作在同一个数据集上感到兴奋。
- 必须克服现有的不平等现象,以确保基准的全面性和包容性。目前,某些语种、领域及任务的数据集在开源社区中的代表性不足。
- 我们拥有社区所需的很多工具,可以借助它们有效地协作构建有价值的数据集。
如你想参与攻略相关的工作,你可以按照你感兴趣的项目的 README 文件中的说明进行操作,与社区共享你的数据集和结果,或者为大家提供新的指南和工具。你的宝贵贡献将有助于我们为所有人建立强大而全面的资源。
如果你想参与其中,请加入我们的 Hugging Face Discord 中的 #data-is-better-together
频道,并告诉我们你想参与什么任务!
我们期待与大家一起构建更好的数据集!
英文原文: https://huggingface.co/blog/dibt 原文作者:Daniel van Strien,David Berenstein,Sara Han Díaz 译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。