论文速读 - 用于布局生成的变分Transformer网络

博主： AIHGF
发布时间：2021 年 06 月 13 日
2704 次浏览
暂无评论
1822字数
分类： Transformer

论文：Variational Transformer Networks for Layout Generation - CVPR2021
Blog：Using Variational Transformer Networks to Automate Document Layout Design - Google AI Blog
Code：暂无

设计领域生成模型，以合成不同类型的布局，如文档、用户界面、家具布局等.

主要是基于自注意力(self-attention) 层，捕捉布局中不同元素间的高层关系，并基于变分自编码器(VAE) ，构建变分Transformer 网络(VTN).

VTN 能够在没有明确监督的情况下，学习边距、对齐和其他全局设计规则.

布局生成往往依赖于贪婪搜索算法(greedy search algorithms)，如beam search, nucleus sampling or top-k sampling，其生成的多样性不能保证.

1. VTN 结构

如图：

动态版，如：

1.1. 变分建模的瓶颈层

VAE 的瓶颈层(bottleneck layer)往往被建模为用向量来表示输入.

由于 Self-Attention 层是 sequence-to-sequence 结构，如，一个包含 n 个输入元素的序列，被映射到 n 个输出元素.

基于 BERT 的启发，在序列的起始出添加了一个辅助标记(token)，并将其看作为自编码器瓶颈向量(autoencoder bottleneck vector) z. 训练阶段，与该标记相关的向量是传递给编码器的唯一信息，因此，编码器需要学习如何压缩该向量中的整个文档信息. 而解码器学习从该向量推断文档中的元素数量以及输入序列中每个元素的位置.

1.2. 布局转换为输入数据

一个文档往往是由多种设计元素组成，如，段落、表格、图像、标题、脚注等.

设计中的布局元素一般通过各元素边界框坐标来表示.

为了便于神经网络理解这些信息，将每个元素通过四个变量(x, y, width, height) 来分别表示元素在页面的位置(x,y)，大小为 (width, height).

2. Results

如，

更多可见论文附加材料.

材料

[1] - 李宏毅深度学习笔记-无监督学习-深度自动编码器 - 2020.06.28

最后修改：2021 年 06 月 16 日

© 允许规范转载

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

论文速读 - 用于布局生成的变分Transformer网络

AIHGF • 2021 年 06 月 13 日

<blockquote><p>论文：<span class="external-link"><a class="no-external-link" href="https://arxiv.org/pdf/2104.02416.pdf" target="_blank"><i data-feather="external-link"></i>Variational Transformer Networks for Layout Generation - CVPR2021</a></span></p><p>Blog：<span class="external-link"><a class="no-external-link" href="https://ai.googleblog.com/2021/06/using-variational-transformer-networks.html" target="_blank"><i data-feather="external-link"></i>Using Variational Transformer Networks to Automate Document Layout Design - Google AI Blog</a></span></p><p>Code：暂无</p></blockquote><p>设计领域生成模型，以合成不同类型的布局，如文档、用户界面、家具布局等. </p><p>主要是基于自注意力(self-attention) 层，捕捉布局中不同元素间的高层关系，并基于变分自编码器(VAE) ，构建变分Transformer 网络(VTN). </p><p>VTN 能够在没有明确监督的情况下，学习边距、对齐和其他全局设计规则.</p><p><img src="https://www.aiuai.cn/uploads/2106/10af6c92a4cd64e1.png" alt="" title="" style=""></p><p>布局生成往往依赖于贪婪搜索算法(<span class="external-link"><a class="no-external-link" href="https://en.wikipedia.org/wiki/Greedy_algorithm" target="_blank"><i data-feather="external-link"></i>greedy search algorithms</a></span>)，如<span class="external-link"><a class="no-external-link" href="https://en.wikipedia.org/wiki/Beam_search" target="_blank"><i data-feather="external-link"></i>beam search</a></span>, <span class="external-link"><a class="no-external-link" href="https://arxiv.org/abs/1904.09751" target="_blank"><i data-feather="external-link"></i>nucleus sampling</a></span> or <span class="external-link"><a class="no-external-link" href="https://arxiv.org/abs/1805.04833" target="_blank"><i data-feather="external-link"></i>top-k sampling</a></span>，其生成的多样性不能保证.</p><h2>1. VTN 结构</h2><p>如图：</p><p><img src="https://www.aiuai.cn/uploads/2106/d7be7eca6089999f.png" alt="" title="" style=""></p><p>动态版，如：</p><p><img src="https://www.aiuai.cn/uploads/2106/201fdb4825142d54.gif" alt="" title="" style=""></p><h3>1.1. 变分建模的瓶颈层</h3><p>VAE 的瓶颈层(bottleneck layer)往往被建模为用向量来表示输入.</p><p>由于 Self-Attention 层是 <span class="external-link"><a class="no-external-link" href="https://papers.nips.cc/paper/2014/file/a14ac55a4f27472c5d894ec1c3c743d2-Paper.pdf" target="_blank"><i data-feather="external-link"></i>sequence-to-sequence</a></span> 结构，如，一个包含 n 个输入元素的序列，被映射到 n 个输出元素.</p><p>基于 <span class="external-link"><a class="no-external-link" href="https://arxiv.org/abs/1810.04805v2" target="_blank"><i data-feather="external-link"></i>BERT</a></span> 的启发，在序列的起始出添加了一个辅助标记(token)，并将其看作为自编码器瓶颈向量(autoencoder bottleneck vector) z. 训练阶段，与该标记相关的向量是传递给编码器的唯一信息，因此，编码器需要学习如何压缩该向量中的整个文档信息. 而解码器学习从该向量推断文档中的元素数量以及输入序列中每个元素的位置.</p><h3>1.2. 布局转换为输入数据</h3><p>一个文档往往是由多种设计元素组成，如，段落、表格、图像、标题、脚注等.</p><p>设计中的布局元素一般通过各元素边界框坐标来表示.</p><p>为了便于神经网络理解这些信息，将每个元素通过四个变量(x, y, width, height) 来分别表示元素在页面的位置(x,y)，大小为  (width, height).</p><h2>2. Results</h2><p>如，</p><p><img src="https://www.aiuai.cn/uploads/2106/90c41c45140ff93e.png" alt="" title="" style=""></p><p>更多可见论文附加材料.</p><h2>材料</h2><p>[1] - <span class="external-link"><a class="no-external-link" href="https://www.cnblogs.com/wry789/p/13205324.html" target="_blank"><i data-feather="external-link"></i>李宏毅深度学习笔记-无监督学习-深度自动编码器 - 2020.06.28</a></span></p>