wechat: echo "aGJzdW43MTA0NjcyNzIK" | base64 -d

node2vec

发表于 2018-10-11 | | 阅读次数: |

文章背景

题目：《node2vec》:Scalable Feature Learning for Networks
来源：ACM SIGKDD 2016
作者：Aditya Grover、Jure Leskovec(都是stanford cs)

Abstract

动机：前人工作没有捕获连接模式的多样性，本文将维护节点的邻域。
贡献：
- 拓展了邻域的概念
- 设计了有偏差的随机游走，这对不同邻域都有效
- 是前人”严格定义邻域”的泛化，证明了“拓展邻域的概念”可以更丰富表达
适用场景：多标签分类任务、链接预测任务
适用于有向\无向，有权重\无权重的图。

1.Introduction

节点两种属性：
- 同质性(属于同一个社区;homophily)
- 结构角色(比如是中心节点;structural role)
- 在真实场景中，这两种属性是混合的

Present work

node2vec属于半监督
```
使用了word2vec中的skip-gram,SGD
```
最大化节点邻域的可能性(likelihood)
使用了2阶随机游走
关键贡献是对节点的邻域做了更为灵活的定义
扩张方面：也对边做了embedding，即对边进行向量表示。(其实就是对边的两个点的embedding做二元运算)
对标算法：DeepWalk LINE
模型性能：多标签提升了26.7%,连接预测提升了12.6%。甚至只用了10%的数据时，效果也很好。
可并行化计算，可扩展到大规模网络(几百万节点)

Contribution

没什么干货

skim-gram是基于分布式假设的：在相似上下文中出现的单词有相似的含义，即相似的单词出现在相似的上下文中。（感觉这两句话是一个意思）
node2vec优势：前人工作的模型效果强依赖于对节点的采样策略，node2vec设计了一个灵活的评价函数，可以不强依赖于特定的采样策略，并且增加了超参数可以用于调节采样空间。
最后一段好像是在说DNN的思想和缺陷。

3.Feature learning framework

基于两点假设：
- 独立性假设
- 对称性假设

3.1Classic search strategies

BFS探索的是结构性，DFS探索的是同质性。
BFS优点：减小方差，但是探索的范围太小
DFS优点：没有捕获连接中的依赖关系的实质，高方差，路径太深就没有代表性了、依赖关系也会变得复杂。

3.2node2vec

参数q控制了DFS和BFS之间的平衡。
本文的随机游走是2阶的Markovian。(没有证明，我也不太清楚)
随机游走的好处：
- 内存开销小
- 时间复杂性低

4.Experiments

实验章节还是非常严谨的，只是现在和我的实现无关，因此粗看，后续要细看一下这个实验部分。

我自己的一些想法

在3.Feature learning framework中做出了对称性的假设，但我觉得后文其实没有用上。
要是让我做，可能需要设计一个考虑方向的评价函数。

在3.1Classic search strategies中，我不认为“BFS探索的是结构性”。

本文标题:node2vec

文章作者:

发布时间:2018年10月11日 - 09:10

最后更新:2025年01月27日 - 16:01

原始链接:http://blog.hbsun.top/2018/10/11/node2vec/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际转载请保留原文链接及作者。