开源社区分析报告背后的数据支撑: GH Archive
最近应老板要求看了一个 X-lab 针对 GitHub 开源项目的分析报告,发现了一个背后非常好用并且强大的数据集。所以简单介绍一下这个数据集的收集方式和使用方法。 此博客在 GitHub 上公开发布. 如果您有任何问题或疑问,请在此处打开一个 issue. 简介 前段时间过年的时候老板给我发来了一个 X-lab 实验室做的 GitHub 开源项目的分析报告想让我看看我们是否可以学习和利用其中的分析方法和数据集。我就看了看这个报告,发现它其实背后是使用了另外一个开源项目 GH Archive 归档的数据集并配合 ClickHouse 生成了分析报告。所以我就简单的看了看这个项目,下面是这个 GitHub 归档项目的实现思路和使用方法。 GH Archive 设计和实现思路 GH Archive 采取了一个非常暴力但是非常有效的归档方式,他们将 GitHub 所有的事件的都利用 GitHub 提供的 Event API 爬取了下来,然后按照 JSON 的格式存了下来。 他们使用 ruby 来调用 GitHub API 进行爬取,具体的代码在 crawler.rb。有效的代码不超过一百行,所以就不具体展开解读了。主要就是调用 API 并且将数据按照日期整理为 JSON 格式的文件。 同步至 BigQuery 数据集 GH Archive 通过爬取的方式整理好数据之后提供了 JSON 数据集的下载服务,我们可以通过 HTTP 客户端下载这些数据集,例如使用 wget: wget https://data.gharchive.org/2015-01-01-15.json.gz 这样我们就可以下载 2015 年 1 月 1 日 GitHub 所有公开仓库的所有事件。...