title | tags | |
---|---|---|
问卷篇 |
|
自2016年初发布的《2015年中国开源社区参与调查报告》起,开源社持续发布年度开源开发者调查报告,致力于多维度呈现中国开源发展的现状与趋势。2024年,我们继续沿用这一传统,并借助数据分析手段和调查报告工具,进一步绘制中国开源世界的地图,帮助开源社区、开发者和业界人士深入了解国内开源生态的变迁。
本问卷篇将继续关注开源社区中各个层级的参与情况,旨在通过多维度问题,深入了解受访者的个人信息、工作状况、开源社区参与情况以及开发者的技术背景等。本问卷根据开源社区的参与深度,设定了多个角色层级,包括使用者、参与者、贡献者、维护者和生态运营等,旨在全面反映开源社区内不同层级用户的参与情况与影响力。具体定义如下:
- 使用者:使用过某一款或某几款开源产品的用户
- 参与者:与开源社区有互动行为的用户(例如与开源社区交流沟通、参与开源社区组织的活动等)
- 贡献者:对开源社区有实质性的贡献的用户(包括代码贡献和非代码贡献)
- 维护者:主要负责对开源社区日常运营的用户(包含项目 maintainer、PMC 成员等)
另外,生态运营为主要负责对开源社区日常运营的用户, 层级在参与者之上,与维护者统称为运营者。
与往年类似,本问卷除了涵盖基础信息外,还针对不同角色群体的特点,设计了针对性问题,深入了解各个层级的参与动机、贡献模式和影响力。
本次调查问卷的基本信息如下:
- 调查对象 :覆盖开发者、社区成员、贡献者、学生、政府企业管理人员
- 调查内容 :主要涵盖个人信息、工作状况、开源社区以及开发者技术等
- 调查方法 :以在线问卷方式搜集样本和数据,交叉对比法分析数据
- 分发渠道 :线上公众号推广,以及线下开源社、OSCAR中国产业大会、PyCon、2024第九届中国开源年会等多渠道发放。
- 问题类型 :单选、多选、开放性
- 问题数量 :41
- 样本量 :631
受访者特征
- 年龄与性别:本次调查的受访者年龄范围从21岁以下至50岁以上,性别比例均衡,男性和女性受访者各占一半,体现出样本的多样性。
- 教育背景:受访者的学历层次涵盖大学本科、硕士研究生及博士研究生,显示出整体较高的教育水平。
- 职业身份:受访者的职业身份多样,包括学生、开发者、技术经理、架构师、数据工程师和分析师等,全面覆盖了IT行业的多个领域。
- 地理位置:受访者来自全国多个省份和城市,如北京、上海、广东和浙江等,具有良好的地理代表性。
开源参与情况
- 开源接触时长:受访者在开源领域的接触时长从少于1年到10年以上不等,显示出开源社区中新老成员的混合。
- 开源软件使用原因:受访者使用开源软件的主要原因包括其免费性、可二次开发能力、良好的社区氛围及维护性。
- 开源检索途径:大多数受访者通过代码托管平台、搜索引擎、技术社区和技术文档来检索开源产品。
开源贡献情况
- 贡献平台:GitHub是受访者最常用的开源项目贡献平台,其次是Gitee等国内平台。
- 贡献方式:受访者主要通过代码贡献、文档相关贡献以及开源布道等方式参与开源项目。
- 激励因素:荣誉激励、社交激励和职业发展激励是影响受访者进行开源贡献的重要因素。
社区运营调查
- 社区角色:受访者在开源社区中扮演多种角色,包括用户、参与者、贡献者和维护者等。
- 社区沟通方式:国际化通讯工具、国内通讯工具及异步沟通工具是受访者与开源社区沟通的主要方式。
- 社区活跃度:受访者所在社区的活跃用户和开发者数量差异较大,从少于50人到500人以上不等。
国内开源发展调查
- 企业开源使用情况:多数企业使用社区版开源软件,并制定相应的使用要求和管理规范。
- 高校开源教育:许多高校已开设与开源相关的课程,并支持相关项目的基础设施和资源建设。
- 开源实践活动:受访者积极参与各类开源实践活动,如Google编程之夏(GSoC)和开源之夏(OSPP)等。
- 开源项目商业化:大多数受访者认可将开源项目用于商业化,显示出开源与商业结合的趋势。
受访者心中的 2024 年开源关键词 根据 2024 年开源关键词词云图,我们可以概括出受访者在新的一年里最关心的几个主题:
- 技术创新:关键词如“创新”、“智能”、“大模型”表明,受访者高度关注技术领域的最新进展,尤其是人工智能和大型模型技术的发展。
- 开源生态:词汇“开源”、“共享”、“协作”突显了开源社区在推动技术发展和知识共享方面的重要作用。受访者期待通过开源项目和社区合作来实现技术突破和创新。
- 安全与隐私:在数字化时代,随着技术应用的深入,关键词“安全”提醒我们,数据安全和隐私保护是不可忽视的重要议题。
- 商业化与应用:关键词“商业化”、“应用”显示了受访者对于如何将开源技术转化为实际应用和商业价值的关注。
- 教育与人才培养:随着技术的发展,关键词“教育”、“学习”表明,持续学习和人才培养是适应未来技术变革的关键。
- 社区与合作:关键词“社区”、“合作”强调了建立活跃的开源社区和促进跨领域合作的重要性,这对于推动技术进步和项目成功至关重要。
- 变革与适应:面对不断变化的技术环境,关键词“变革”、“发展”表明受访者认识到适应和引领变革是实现个人和组织成长的关键。
2024 年开源关键词 |
---|
通过对受访者的年龄、性别、学历、常驻城市、所处行业和职业身份的分析,我们可以勾勒出参与开源社区的受众群体的基本轮廓,这有助于我们理解不同背景的个体如何与开源社区互动,并为针对性的社区发展策略提供依据。
年龄 | 性别 |
---|---|
调查数据显示,受访者主要集中在21-30岁这个年龄段,其中21-25岁的受访者占比最高,达到 26.2%,其次是26-30岁,占 20.5%。这表明开源社区的受众群体以年轻人为主,尤其是处于职业早期的成年人,他们可能对新技术和开源项目更感兴趣,更愿意参与和贡献。总体来看,分布与去年相近。
在性别分布上,男性受访者占据了绝大多数,达到 71.0%,而女性受访者占 28.4%,其他性别的受访者仅占 0.6%。这一数据反映出在开源社区或相关领域中,男性的参与度显著高于女性。但相比较去年的 25.83%有一定的提升。
学历 | 地区 |
---|---|
受访者受教育程度普遍在本科及以上,其中大学本科占比最高,达到53.2%,其次是硕士研究生,占29.0%,博士研究生及以上占6.3%。 在城市分布上,东部沿海地区和部分中部地区的受访者比例较高,而西部和北部地区的受访者比例相对较低。其中北京、广东、上海有较多的受访者有一部分原因是我们线下收集问卷的渠道在这些城市。
行业 | 职业身份 |
---|---|
受访者主要分布在互联网 / IT / 电子 / 通信行业,占比达 72.23%,表明调查对象主要涵盖了科技领域。 在职业身份方面,最多的是在校学生,占 36.3%,其次是后端开发者、学术研究员和开源/技术布道师/DevRel。整体而言,调查对象以技术从业人员和学生居多,且涵盖了多个计算机行业职业身份。
这部分总结了受访者参与开源项目的频率、动机、形式和障碍,揭示了他们与开源社区互动的活跃度和参与度,以及影响他们参与的因素。
开源社区的角色 | 接触开源的时长 |
---|---|
调查显示,开源社区中绝大多数成员为使用者(72.1%),同时有近半数参与者(55.1%)和少部分贡献者(29.5%)。相比较于去年的 26.51%贡献者,今年对开源社区做出了实质性的贡献的比重有所上升。
接触开源的时长方面,22.2%的受访者在开源社区中的接触时长不足 1 年,超过半数的人已经有 3 年以上的经验。
我们针对 "您认为自己多大程度上是开源社区一份子" 这个问题,与受访者在开源社区的角色进行了交叉分析。
认为自己多大程度上是开源社区一份子 |
---|
可以看出,开源社区中,维护者、贡献者、生态运营相比参与者、使用者更有归属感。
接下来的问题针对在开源社区的角色为“使用者”及以上层级的受访者提出。
选择开源产品的原因 | 影响选择的因素 |
---|---|
使用者选择使用开源软件的主要原因是产品免费,占比 63.3%,这反映了成本效益在开源产品选择中的重要性。"以二次开发为主"的因素占 56.5%。"社区氛围好"占 51.7%,这表明一个积极、友好的社区环境对于吸引和保留用户至关重要。
在选择开源产品时,参与者更注重代码规范程度、开发者活跃度。这表明用户不仅关注开源产品的功能和质量,还关注社区和开发者的活跃度以及项目的可持续性。
使用开源产品遇到的问题 | 促使进行开源贡献的因素 |
---|---|
超过半数的受访者都遇到了项目缺少文档的问题,其次是不稳定的版本更新。
个人兴趣、社区氛围以及提升技术能力等因素在推动开源贡献方面起到了重要作用。
感兴趣的技术方向 | 了解的开源许可证 |
---|---|
受访者对人工智能表现出强烈兴趣,占 73%,其次是开发工具以及数据库和数据处理。
关于开源许可证,Apache 是最广为人知的开源许可证,其次是 MIT 和 GPL。
检索开源产品的途径 | 与社区的沟通方式 |
---|---|
在检索开源产品时,"通过代码托管平台搜索"是最常见的发现途径,占比高达 64.6%。其次是"技术社区、技术媒体推荐",占 56.0%。"通过搜索引擎搜索"的比例为 51.0%,而"技术交流与开源代码"占 41.1%。
与开源社区的沟通方式主要为国内通讯工具(如钉钉、微信、QQ、飞书等)和异步沟通工具(如 GitHub Issue、Discussion、Mail List 等),而国际化通讯工具(如 Slack、Skype、Telegram、Lark 等)也被广泛采用。说明国际开源社区多以异步沟通工具为主,与国内有着明显的差异。
常用的产品 / 技术社区 |
---|
绝大部分受访者主要通过代码托管平台和进行开源社区的参与。此外,还有近半数的受访者还通过国内技术论坛参与开源社区。
此部分的问题针对在开源社区角色为“贡献者”及以上层级的受访者提出。通过分析受访者在开源项目中的贡献类型和质量,我们可以评估他们对社区的具体贡献,并识别出提升贡献效率和质量的潜在途径。
是否参与开源实践活动 | 每周参与开源的时长 |
---|---|
有接近三分之一的学生开发者积极参与了如谷歌编程之夏(GSoC)和开源之夏(OSPP)等知名的开源项目活动。其中 GSoC 吸引了 7.4%的学生开发者,而 OSPP 则吸引了 28.7%的参与者,两者合计占总比例的 36.1%。
有超过半数的贡献者每周在开源项目上投入的时间超过 5 小时。有超过 20%的贡献者每周在开源项目上的投入时间达到了 10 小时以上。
所在高校在开源教育与支持情况 |
---|
有 21.4%的受访学生所在高校开设了与开源相关的课程,有 16.7%的受访学生所在高校组织了与开源项目相关的讲座、社团或研讨会。另外还有 13.7%的受访学生所在高校支持开源项目的基础设施和资源(如服务器、代码托管平台等)。
主要开源贡献平台 | 开源贡献常用开发语言 |
---|---|
GitHub 仍是最受受访者青睐的平台,占据主导地位,其次是 Gitee 和 GitLab。表明在国内开发者中,GitHub 的影响力仍然很大,但国内平台也在逐渐崭露头角。 主要使用的开发语言包括 Python、C / C++、Java、JavaScript、Go。此外,汇编语言、TypeScript 等也获得了较高的选择次数。
主要贡献类型 | 贡献的项目类型 |
---|---|
受访者对开源项目的贡献方式呈现多样化,其中“代码贡献”是最主要的贡献方式,占比达到 30.5%。其次是“文档相关贡献”,占 24.6%,这说明文档的编写和维护也是开源项目中不可或缺的一部分。接下来是分别是"开源布道"占 13.8%,"开源社区运营"占 12.8%,"协助社区活动举办"占 10.0%,"基于开源的商业化项目"占 8.3%。
同时,他们参与的开源项目类型多样,但以技术基础和基础设施为主。
激励方式 | 财务回报的来源 |
---|---|
开源社区的激励机制是多维度的,不仅包括财务回报,还包括职业发展、社区认可和个人成长等方面。各激励方式都受到了积极评价,表明多元化的激励机制对开发者的开源参与产生了积极的影响。同时,开源项目的财务回报虽然多样,但大多数开发者更看重非财务的激励因素。
在开源项目的财务回报方面,大多数开发者参与开源项目主要是出于非财务动机,近四成的受访者没有从开源项目中获得直接的财务回报。
此部分的问题针对在开源社区角色为“运营者”的受访者提出。这部分将探讨受访者对开源社区运营的看法,包括社区管理、活动组织、沟通机制等方面,以了解社区运营的效果和改进空间,为提升社区运营效率和成员满意度提供参考。
社区用户数量 | 活跃开发者 |
---|---|
开源社区用户规模以中小型社区为主,其中接近 50%的运营者所在的开源社区用户数量小于 200 人,其中 50 人以内的社区占比 21.8%,50-200 人的社区占比 28.6%。超过 30% 的社区用户数量超过 500 人。
社区管理情况 | 社区商业公司支持 |
---|---|
在社区管理方面,大约一半的社区拥有清晰的治理结构,并且有专人负责日常运营,这两项分别占到了 13.3%和 12.7%。同时,社区普遍重视规范和准则的制定,以及文档和资源的持续更新,以帮助新成员更好地融入,这两项的比例均为 11.0%。
在商业公司的支持方面,大多数开源社区得到了商业公司的积极参与和支持。其中,10.2%的社区有商业公司参与协同开发,8.7%的社区得到了商业公司的声明采用,8.4%的社区获得了商业公司的资源或资金赞助。然而,也有4.8%的社区表示没有得到商业公司的支持,而“其他”类别仅占0.2%。
所在企业开源软件使用情况 | 是否认同将开源项目商业化 |
---|---|
绝大多数企业倾向于使用开源软件,其中选择使用社区版本的企业占比最高,达到了 43.3%。在开源软件的使用上,有明确的使用要求和管理规范的企业与没有相应管理规范的企业比例大约为 1 比 1.27,这表明虽然一部分企业在使用开源软件时注重规范和管理,但仍有相当一部分企业在管理规范上存在不足,这可能受到企业规模、行业特点以及对开源软件管理理念的影响。
对于开源项目用于商业化的认可程度,平均评分为 3.5,显示出受访者普遍持中等偏上的认可态度。具体来看,评分为 3 的占比最高,达到了 28.9%,其次是评分为 5 的,占比 27.8%。这进一步说明,尽管存在一些分歧,但大多数受访者对开源项目商业化持积极态度。
这部分将总结受访者对开源社区未来发展的看法和建议,包括技术趋势、社区发展方向、潜在的合作机会等,旨在为开源社区的长期发展和战略规划提供洞见。
开源项目持续发展的特征 | 评价开源项目的指标 |
---|---|
总体而言,受访者普遍认为,影响开源社区健康持续发展的关键因素包括快速的社区响应速度、持续涌入的新贡献者以及新贡献者能够被有效转化为长期贡献者,这些因素的比例分别为 52.5%、41.1%和 31.1%。
在评价开源项目时,受访者主要关注项目的影响力和受欢迎程度、项目及社区的活跃程度、开发者的权威性以及项目是否有持续的更新和维护,这些因素的比例分别为 61.1%、49.4%、41.3%和 37.9%。这些关注点反映了开发者对于项目在技术实力、社区参与度和长期可维护性方面的综合考量。
此外,良好的社区文化和氛围也是社区成功的关键,占比 28.7%,而资金支持、项目被广泛使用以及项目的技术先进性则分别占 16.8%、16.3%和 9.0%。这些因素虽然相对次要,但也是社区发展中不可忽视的组成部分。
使用的大模型产品类型 |
---|
总体来看,闭源模型因其强大的性能和广泛的应用在大模型领域占据主导地位,而开源模型则在特定领域和应用场景中展现出其独特的价值和潜力。其中,闭源模型如 GPT 系列和 LLaMA (Meta) 显示出显著的领先地位,分别以 58.3%和 34.9%的使用率被广泛采用。另一方面,开源模型同样在社区中占有一席之地。GPT 系列开源实现和百度千帆大模型分别占 14.6%和 13.7%,显示出开源社区在大模型领域的努力得到了认可。讯飞星火和OpenLLaMA作为开源模型,使用率分别为 13.3%和 11.9%,智谱清言(Zhipu AI) 和ChatGLM系列等开源模型也在特定用户群体中受欢迎,使用率分别为 11.6%和 8.9%。
人工智能对开源项目 / 社区的影响 | 开源大模型在发展过程中最需要解决的技术挑战 |
---|---|
人工智能技术对开源项目和社区产生了深远的影响。其中,最显著的是推动了跨学科合作,拓展了新兴领域的开源项目,这一影响占比达到了 30.8%。其次,人工智能加快了开发者学习和创新的速度,占比 20.2%。此外,人工智能还提升了代码生成和审查的效率(14.3%),自动化了常见开发任务以减少重复性劳动(13.0%),并帮助社区成员进行技术问题的解答与指导(6.8%)。然而,也有 4.6%的受访者担心 AI 可能导致产生更多低质量或重复性项目,以及 4.4%的受访者担心这会加剧对 AI 模型的依赖,降低开发者自主编程能力。
在开源大模型的发展过程中,面临的技术挑战众多。最迫切需要解决的是降低模型的训练与使用成本,这一挑战占比高达 53.8%,指出了在大规模部署和使用AI模型时面临的经济障碍。提高模型的透明度与可解释性也是一个重要挑战,占比 39.5%,关系到模型的可信度和用户对 AI 决策的理解。此外,改进大模型在实际应用中的可控性与安全性(34.9%)和消除模型中的数据偏见和伦理问题(28.7%)同样重要,这涉及到模型的稳定性和防止滥用。提供更多可复用的开源模型和工具包(23.2%)以及增强大模型在开源社区的可访问性和共享机制(14.3%)也是推动社区发展的关键因素。这些挑战的解决将有助于开源大模型的健康发展和广泛应用。