黑客松

第一届黑客松-落地松主题演讲——数据视觉化经验分享

文/刘勇(Gephi认证讲师)

不知道在座的有没有使用过Gephi,我就直接举一个实际的例子来介绍Gephi。这个是Gephi的界面,Gephi是一个数据可视化软件,开源的系统,支持苹果和windows操作系统。做的事情就是把数据可视化出来。

Gephi的介绍我就不多说了。这个例子是上海三个研究人员从16个国家各选出两个知名度比较高的杂志,一共选了32家,做了一个表格出来看他们之间的引用情况。比如说五年时间中人民日报引用过中国日报的是171条,用过海峡时报的是41条;中国日报引用过人民日报是2800条,引用过海峡日报是1条。Gephi没有办法直接把excel读进去,但可以读取CSV文件。我们就进入到Gephi里面看看它怎么导入的:在Gephi打开它,这个就是从excel转化过来的文件。打开后会显示这个节点是32(媒体32家),边是666个,然后点“确定”,我们可以放大地去看。边和边的粗细也是不一样的,也有箭头方向。得到这个数据之后可以去算各种参数,Pagerank是谷歌搜索引擎的成名的算法,点击“运行”,把边的权重点上之后就可以,可以得到一个报告,里面有每个节点的分布数量,底下是引用的论文。然后再算一个模块化的方法,把相似的节点算出来,哪两个媒体比较相似计算出来,最后也会得出一个报告。这个计算结果会到这个数据资料里面去。Gephi的数据有两个类型,一个是结点的数据,这个点有什么特征,大家可以把一个节点想象成一个人,这个表是介绍这个人的姓名、性别、职业、习惯,另外一个表是边的表,代表谁指向谁,比如人民日报指到海峡日报上去,这边有一个边的权重。Pagerank算法后得到一个数值,这个值是模块化的,对节点分类之后又加一个编号。这个数据是总结以后计算出来的。现在可以把计算结果应用到节点上面去,分类之后分了五种出来,然后可以点“应用”,把颜色涂到节点上面去,相似的节点会用一个颜色来表示。我们也可以选Pagerank,会有大小的浮动,把最小的设置成1或者0,再去点“应用”就可以把大小转化成形状。Gephi需要把中文字体给选上,这个时候需要进一步去处理,因为导进来是随机的,比较乱,我们需要有一些结构,这个是在流程里面操作。流程里面就是一种布局算法,系统根据不同的规则去排列,在这儿有很多设置,这个值也需要调一下。当节点的规模不一样,值也不一样,再点“应用”,关系近的就会拉到一起。在后面有一个预览的步骤,可以做更多的设置,有很多模板和效果,比如可以把背景转成黑的等等。这个图的最大特征就是边的差距非常大,这个时候做刷新的话这个图就非常奇怪,因为有的边的权重的线非常粗,这样的话就可以把边的厚度选得细一些,再点刷新的时候就变得更好辨认一些。这个时候就可以输出,默认有三种输出方式,Gephi有很多插件,支持WEB的方式输出去,再交互地操作。Gephi的操作基本上就是这么多。有的标签不会识别,挤到一块儿去了,就可以把字体设置得小一点,在不影响结果的情况下去调整。Gephi每次导进图的时候会不太一样,输出的时候看起来也不太一样,它的外观会有一些变化,但是关键的一些结构是不变的。和天上的星星一样,会移动,但星座是一样的。

时间关系,看一个我直接调好的图,这是稍微调整过一些的结果的图,大家看出什么了吗?都是计算机根据每个数值的关系产出的。在整个图里,美国和英国的报纸互相引用比较多。刚才看的时候线是直的,带个箭头。Gephi可以选择成弧度的或者圆的,选择成弧度之后会有什么差别?两个节点之间是直线的话方向就看不出来了,在Gephi里面很巧妙地用弧线来表现,它是顺着时钟走的。这是日本的两家报纸,日本的每日新闻报纸引用人民日报比较多一点,但人民日报也没有怎么引用。泰晤士报、卫报、纽约时报、华盛顿邮报中间可以有六个环,但是现在是五个。一个国家的两个报纸往往是连在一块儿的,原因要么是两家报纸之间引用得比较多,要么就是两家与外界关联的相似度非常高,所以就把它们放在一起去了。可以把这个图看成三个区域,核心是四个节点,然后还有一个外围的区域。

我大概就说这么多,数据可视化用Gephi去做的时候大概就是这样。