标签自回归下的文章 - 科学空间|Scientific Spaces

8 Jul

“闭门造车”之多模态思路浅谈（二）：自回归

By 苏剑林 | 2024-07-08 | 36315位读者 | 引用

这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。

在前文《“闭门造车”之多模态思路浅谈（一）：无损输入》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重的信息损失，所以更有前景或者说更长远的方案应该是输入连续型特征，比如直接将图像的原始像素特征Patchify后输入到模型中。

然而，连续型输入对于图像理解自然简单，但对图像生成来说则引入了额外的困难，因为非离散化无法直接套用文本的自回归框架，多少都要加入一些新内容如扩散，这就引出了本文的主题——如何进行多模态的自回归学习与生成。当然，非离散化只是表面的困难，更艰巨的部份还在后头...

无损含义

首先我们再来明确一下无损的含义。无损并不是指整个计算过程中一丁点损失都不能有，这不现实，也不符合我们所理解的深度学习的要义——在2015年的文章《闲聊：神经网络与深度学习》我们就提到过，深度学习成功的关键是信息损失。所以，这里无损的含义很简单，单纯是希望作为模型的输入来说尽可能无损。

点击阅读全文...

分类：信息时代标签：生成模型, 扩散, 多模态, 自回归阅读全文 48 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

“闭门造车”之多模态思路浅谈（二）：自回归

无损含义

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接