diff --git a/index.html b/index.html index 18eef37..0751ba3 100644 --- a/index.html +++ b/index.html @@ -1,32 +1,290 @@ - -
+ + + - - - - - - - - - - - + + + + + + + +Software Heritage est une initiative lancée par Inria et soutenue par l’Unesco dont la mission est de collecter, préserver et rendre facilement accessible tout le code source publiquement disponible. L’archive qu’elle a constitué contient aujourd’hui plus de 19 milliards de fichiers uniques, issus de plus de 300 millions de projets collectés sur une variété de plateformes (dont GitHub, GitLab, etc.).
Software Heritage est engagé pour la transparence et le respect du droit des auteurs dans la course actuelle au développement massif de grands modèles de langages: il a publié des principes clairs en Octobre 2023, et la publication du modèle StarCoder2 en Février 2024 a montré qu’il est possible de développer des modèles efficaces tout en respectant ces principes.
Il est urgent d’aller plus loin pour que les modèles ouverts, transparents et responsables deviennent la norme, et non pas l’exception. Pour cela, le projet Code Commons vise à consolider et monter en puissance le bien commun numérique unique construit par Software Heritage depuis 2016, et développer l’infrastructure logicielle indispensable pour répondre aux défis posés par la construction de tels modèles.
Le projet Code Commons prend appui sur Software Heritage pour positionner la France comme référence mondiale pour la base de données d’apprentissage sur le code. Pour cela, il va consolider et monter en puissance le bien commun numérique unique construit par Software Heritage depuis 2016, et construire l’infrastructure logicielle indispensable pour l’exploiter efficacement, tout en donnant un précieux avantage compétitif aux acteurs français de l’IA générative.
Le projet Code Commons se distingue par plusieurs innovations majeures :
Le projet s’appuie sur un partenariat stratégique entre Inria, le CEA, et Tweag, réunissant des compétences complémentaires essentielles à la réussite de Code Commons. Inria apporte son expertise à travers les équipes de Software Heritage, DiverSE, Almanach, et Cedar, offrant un large éventail de compétences en ingénierie des langages, génération de code, traitement des langues et IA générative, et analyse de données à grande échelle. Le CEA contribue avec son expertise en traitement automatique des langues et en ingénierie des systèmes et logiciels. Tweag, connu pour son approche innovante en matière de développement logiciel, complète ce consortium. AboutCode apportera son expertise pour la détection des licences des codes sources avec son logiciel Scancode, référence mondiale dans le domaine. Le projet bénéficie également du soutien de partenaires académiques internationaux, tels que les Universités de Pise et de Bologne, et de l’expertise de personnalités éminentes telles que Patrick Valduriez. Ce partenariat multidisciplinaire garantit une approche holistique et innovante, essentielle pour relever les défis complexes posés par l’IA générative.
Dans ce cadre, l’équipe DiverSE (en étroite collaboration avec l’équipe Software Heritage) recrute une équipe de huit ingénieurs sous la responsabilité scientifique et technique de permanents de l’équipe pour participer à ce projet. Dans ce cadre, l’équipe va travailler sur deux briques importantes concernant l’extraction efficace des données et des briques d’analyse de code efficace pour la construction de méta-données spécifiques. Concrètement, les deux premières tâches visent à reconstruire l’outil GHTorrent mais au-dessus de Software Heritage et reprendre l’ensemble des scripts d’entraînement de starcoder pour une intégration au-dessus de Software Heritage. Ces deux démonstrateurs serviront de cas nominal pour l’évaluation des l’ensemble des tâches effectuées dans ce projet par les partenaires.
+D’autres tâches d’analyse de code viendront compléter ces démonstrateurs, telles que la construction d’un graphe reliant les corrections des vulnérabilités logicielles dans le code avec les causes de leur apparition, entre autres.
Ce projet est unique par son ambition, son réseau de contacts, son impact potentiel. Il se retrouve au coeur des activités d’une équipe dynamique fortement intégré à l’équipe de Software Heritage.
Vous participerez à un projet open source d’envergure mondiale. Dans une époque où la maîtrise des données est un enjeu géopolitique stratégique pour les états, Code Commons inaugure au niveau national l’utilisation d’une archive unifiée fiable du code source mondiale. À vocation européenne, cette initiative s’intègre dans une ambition plus large visant à bénéficier au niveau européen d’un outil et d’une agence pour le pilotage de ces données associées au domaine de l’open source afin de garantir une souveraineté européenne dans le domaine de l’ingénierie logicielle, de l’IA, et de la cybersécurité (software supply chain attack; …).
Vous serez au cœur d’un réseau d’utilisateurs dont le but est de faciliter l’adoption. Nous avons déjà assuré le soutien d’acteurs majeurs de l’IA en France, qui ont fourni des lettres d’engagement à collaborer: Craft.ai, Hugging Face, Kyutai, LightOn, Mistral et Prairie.
À l’heure où de nombreux projets open source deviennent méfiants du pillage par les acteurs de l’IA de données/code qui n’ont pas été produits dans le but de servir de données d’apprentissage, reprendre la main au sein d’une initiative open source est un moyen de garantir une traçabilité de l’usage du code open source et ainsi permettre une confiance dans ces outils.
L’équipe de recherche DiverSE étudie les techniques de l’ingénierie logicielle pour la construction fiable et efficace d’applications. Notre expertise se place dans le domaine de l’ingénierie des langages, de la variabilité logicielle, du test, de l’architecture, etc.
+Avec une petite quinzaine de permanents (chercheurs Inria, CNRS, enseignants chercheurs INSA/Université de Rennes dont 3 IUFs), une quinzaine de doctorants et plusieurs ingénieurs, l’équipe est reconnue au niveau mondial dans ces domaines d’expertise. Elle est aussi reconnue pour son ambiance sur site, ses pauses café et ses séminaires au vert mémorables. Nous avons en outre la chance d’héberger dans nos locaux deux ingénieurs de l’équipe de Software Heritage facilitant ainsi les liens entre les groupes.
Des connaissances en Python et Rust seront appréciées. D’une manière générale, nous nous attendons à recevoir des ingénieurs ayant la capacité de maîtriser plusieurs langages de développement.
Contrat type CDD.
+Salaire: négociable selon expérience.
2 manières de candidater
Software Heritage is a French initiative (Inria, supported by Unesco) to archive open-source code. This initiative has collected publicly accessible open-source code from software development projects, resulting in the archiving of 14 billion source files, 2 billion commits and over 200 million projects (Github, gitlab, etc.).
Software Heritage is committed to transparency and respect for authors’ rights in the current race to massively develop large-scale language models: it published clear principles in October 2023, and the publication of the StarCoder2 model in February 2024 has shown that it is possible to develop effective models while respecting these principles.
We urgently need to go further to ensure that open, transparent and responsible models become the norm, not the exception. To this end, the Code Commons project aims to consolidate and scale up the unique digital commons built by Software Heritage since 2016, and develop the software infrastructure essential to meet the challenges posed by building such models.
TheCode Commons project is building on Software Heritage to position France as a global reference for the code learning database. To do this, it will consolidate and scale up the unique digital commons built by Software Heritage since 2016, and build the software infrastructure needed to exploit it effectively, while giving French players in generative AI a valuable competitive edge.
The Code Commons project aims to achieve several major innovations:
The project is based on a strategic partnership between Inria, CEA, and Tweag, bringing together complementary skills that are essential to the success of Code Commons. Inria is contributing its expertise through the Software Heritage, DiverSE, Almanach, and Cedar teams, offering a wide range of skills in language engineering, code generation, language processing and generative AI, and large-scale data analysis. The CEA is contributing its expertise in automatic language processing and systems and software engineering. Tweag, known for its innovative approach to software development, completes the consortium. AboutCode will be contributing its expertise in source code licence detection with its Scancode software, a world reference in the field. The project also benefits from the support of international academic partners, such as the Universities of Pisa and Bologna, and the expertise of eminent figures such as Patrick Valduriez. This multidisciplinary partnership guarantees a holistic and innovative approach, which is essential for tackling the complex challenges posed by generative AI.
The DiverSE team (in close collaboration with the Software Heritage team) is recruiting a team of eight engineers under the scientific and technical responsibility of permanent members of the team to take part in this project. As part of this project, the team will be working on two important building blocks: efficient data extraction and efficient code analysis building blocks for the construction of specific metadata. In concrete terms, the first two tasks aim to rebuild the GHTorrent tool but on top of Software Heritage and to take over all the starcoder training scripts for integration on top of Software Heritage. These two demonstrators will serve as a nominal case for the evaluation of all the tasks carried out in this project by the partners.
+Other code analysis tasks will complement these demonstrators, such as the construction of a graph linking the corrections of software vulnerabilities in the code with the causes of their appearance, among others.
This project is unique in its ambition, its network of contacts and its potential impact. It is at the heart of the activities of a dynamic team that is closely integrated with the Software Heritage team.
You will be taking part in an open source project on a global scale. At a time when control over data is a strategic geopolitical issue for states, Code Commons is inaugurating the use of a reliable unified archive of source code at national level. With a European vocation, this initiative is part of a wider ambition to benefit at European level from a tool and an agency to manage this data associated with the open source domain in order to guarantee European sovereignty in the field of software engineering, AI and cybersecurity (software supply chain attack, etc.).
You will be at the heart of a network of users whose aim is to facilitate adoption. We have already secured the support of major AI players in France, who have provided letters of commitment to collaborate: Craft.ai, Hugging Face, Kyutai, LightOn, Mistral and Prairie.
At a time when many open source projects are becoming wary of AI players plundering data/code that has not been produced with the intention of being used as learning data, regaining control within an open source initiative is a way of guaranteeing traceability of the use of open source code and thus enabling confidence in these tools.
The DiverSE research team studies software engineering techniques for the reliable and efficient construction of applications. Our expertise lies in the fields of language engineering, software variability, testing, architecture, etc.
+With around fifteen permanent staff (Inria and CNRS researchers, INSA/Université de Rennes lecturers, including 3 IUFs), around fifteen PhD students and several engineers, the team is recognised worldwide in these areas of expertise. It is also renowned for its on-site atmosphere, its coffee breaks and its seminars. We’re also lucky enough to be able to host two engineers from the Software Heritage team on our premises, facilitating links between the groups.
Required skills : Knowledge of Python and Rust will be appreciated. Generally speaking, we expect to welcome engineers with the ability to master several development languages.
contract: Fixed-term contract.
+Salary: negotiable depending on experience.
2 ways to apply