Проект Software Heritage нацелен на создание полного архива открытых исходных текстов
Французский институт исследований в информатике и автоматике INRIA, при поддержке правительства Франции, ввел в строй проект Software Heritage, задачей которого является сбор, сохранение и предоставление доступа к исходным текстам, собранным в одном месте из различных доступных источников. В итоге, на базе Software Heritage создан крупнейший архив кода, охватывающий все существующие открытые проекты и позволяющий защитить доступный открытый код от возможной потери после закрытия сайтов проектов и репозиториев, а также дающий возможность организовать научные исследования над крупнейшей коллекцией кода.
В настоящий момент архив включает более 2.6 миллиарда файлов, охватывающих 23 миллиона открытых проектов и почти 600 млн коммитов. Архив охватывает код, размещенный в GitHub, репозиториях Debian, коллекциях GNU и других публичных источников. Налажен процесс автоматической синхронизации изменений с GitHub, который скоро будет реализован и для других источников. Для запроса файлов можно использовать контрольные суммы SHA-1.
Из планов на будущее отмечается расширение базы источников, реализация удобной навигации по коду и системы полнотекстового поиска, создание средств для отслеживания происхождения кода и цепочек заимствования, расширение метаданных и проведение статистических исследований, подготовка интерфейса для загрузки кода и истории изменений в форматах современных систем контроля версий.