Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting

发表于 2019-11-05 | 分类于论文阅读笔记 | 浏览次

字数统计: 331 | 阅读时长 ≈ 1

2019NIPS的一篇论文，
论文地址

1. Introduction
2. 模型

1. Introduction

本文说Transformer有2个缺点，（1）locality-agnostics：局部不可知性，原先只针对一个点，计算该点和其余所有点的相关性，没有考虑到子序列和子序列的attention。（2）memory bottleneck：内存瓶颈，空间复杂度和输入序列的长度L有关。对于捕获长时间序列不方便。

2. 模型

本文针对以上2个问题，提出2种解决方案，（1）传统Transformer—>Conv Transformer,（2）使用LogSparse来减少内存的使用。

图b是传统的Transformer，在计算Attention时，计算的是一个点和其余所有点的Attention，在本文中使用一维卷积来生成query和key，在计算Attention时，使用的是子序列之间的Attention，捕获了local上下文信息。

在传统Transformer在计算Atterntion时，使用的因果卷积，在第t步捕获前面所有历史时间步的信息，但是这样空间复杂度较大。所以本文提出了LogSparse，即在计算Attention时，对历史时间步的信息使用log函数进行抽样，然后多堆叠几层，也可以捕获前面所有时间步的信息。减少了空间复杂度，又可以捕获历史时间步的所有信息。

打赏

0%