新天地棋牌

您所在的位置 > 新天地棋牌 > 新天地游戏平台 >
新天地游戏平台Company News
新角度望双线性池化,冗余、突发性题目内心源于那里? | AAAI系列解读 01
发布时间: 2019-12-18 来源:未知 点击次数:

原标题:新角度望双线性池化,冗余、突发性题目内心源于那里? | AAAI系列解读 01

优游平台代理

作者 | Zhi Gao

编辑 | 唐里

本篇文章是AI 科技评论 AAAI 2020 论文系列解读第 01 篇

本文对北京理工大学、阿里文娱摩酷实验室配相符的论文《RevisitingBilinear Pooling: A coding Perspective》进走解读,该论文发外在AAAI 2020,本文最先表清新常用的特征融相符手段——双线性池化是一栽编码-池化的样式。从编码的角度,吾们挑出了分解的双线性编码来融相符特征。与原起的双线性池化相比,吾们的手段能够生成更添紧致和判别的外示。

一、钻研动机

图1 (a) 人造智能解说球赛

常见的特征融相符手段包括词袋模型 (BoW),Vector of Locally Aggregated Deor (VLAD) 模型和Fisher Vector (FV) 模型等。近来的钻研表现,双线性池化 (BilinearPooling) 是一个更有效的特征融相符手段,它已经被普及行使于各栽计算机视觉和机器学习义务 [1-4]。双线性池化经过建模特征的高阶统计新闻来捕获特征之间的有关,进而生成具有外达力的全局外示。然而,双线性池化照样存在两个题目。第一,双线性池化生成的外示含有大量的新闻冗余(redundancy)。第二,双线性池化具有突发性(burstiness)的题目,降矮了外示的判别力。

在这篇论文中,作者最先表清新双线性池化是一个基于相通性的编码—池化框架。从这个新的角度,作者分析了双线性池化中冗余和突发性题目的内心,并挑出了分解的双线性编码来生成紧凑且有判别力的外示。

二、手段

2.1双线性池化的编码—池化框架

双线性池化手段[1]的样式是

其中是双线性池化生成的矩阵外示,将Z向量化得到z行为全局外示。在本文中,作者表清新双线性池化是一个基于相通性的编码—池化框架。全局外示z能够写成

其中,

B是字典,双线性池化计算双线性特征和字典元的内积相通度。由相通度组成的编码经过一个乞降池化 (SumPooling) 聚相符成全局外示z。

在上述的编码—池化框架下,有三个的性质影响了双线性池化的性能:

(1)双线性特征是秩为1的矩阵,含有大量的新闻冗余;

(2)字典B由输入的双线性特征决定。所以对迥异的输入进走编码所行使的字典迥异;

(3)将双线性池化用于众模态义务时,字典元共线,这影响了外示z的判别力。

2.2 分解的双线性编码

从编码的角度,作者挑出了分解的双线性编码(FBC)融相符特征。作者将基于相通性的编码替换成为稀奇编码 (Sparse Coding),激活尽能够少的字典元并保持尽能够众的新闻。与原起的双线性池化相比,分解的双线性编码学习一个全局字典进走编码,挑高了z的判别力。

对高维的双线性特征直接编码很容易引入大量的参数。为了幸免这个题目,作者将字典元进走分解,经过最幼化如下现在的函数获得编码

其中每一个字典元 被分解成了两个矩阵 和的乘积, 真人游戏娱乐平台矩阵分解的秩远幼于双线性特征的维度。经过LASSO算法和参数替换策略,上式能够解得

其中和是替换后的参数。作者行使最大值池化(Max Pooling)将获得的编码聚相符成全局外示z

分解的双线性编码与原起的双线性池化相比,缩短了大量的内存消耗。例如在视觉问应义务中,文本特征的维度p=1024,视觉特征的维度q=2048,应案有3000个类别。行使双线性编码必要存储个参数。倘若最先计算双线性特征,并行使非分解的编码方案,其中字典元的个数k=1000,则必要存储的参数目为。与这两栽方案相比,分解的双线性编码不必要直接计算高维的双线性特征 ,且字典元的空间复杂度由 缩短为。在详细实走中,矩阵分解的秩被竖立为r=5,所以分解的双线性编码只必要存储,约等于个参数,缩短了模型的参数目。

分解的双线性编码能够比较变通地行使到各栽视觉义务中。例如,图像分类和视觉问应义务,网络组织如图2(a) 和图2(b)所示。分解的双线性编码的模块组织如图2(c)所示。

三、实验

3.1 性能比较

这篇论文在图像分类数据集DTD、 Indoor、 MINC、 CUB和视觉问应义务的VQA 2.0数据集上进走了实验。实验终局如外1和外2所示,分解的双线性编码与已有的基于高阶统计新闻的手段进走了比较。实验终局表现,在这两个义务中,分解的双线性编码能够生成紧凑且有判别力的全局外示。

外1在图像分类数据集上各手段的比较终局

外2在视觉问应数据集上各手段的比较终局

3.2可视化

在论文中,作者可视化了双线性池化和分解的双线性编码的特征分布,如图3所示。与双线性池化相比,分解的双线性编码产生的特征更具有判别力,特征分布具有更幼的类内散度和更大的类间散度。

四、总结

这篇论文表清新双线性池化是一栽基于相通性的编码—池化框架,并从编码的角度挑出了一栽分解的双线性编码手段。分解的双线性编码能够解决双线性池化的冗余题目并生成紧凑的外示。分解的双线性编码幸免了对高维双线性特征的显式计算,并且将所需参数的空间复杂度从降矮为。同时,分解的双线性编码能够克服突发性题目。实验表现,与基于高阶统计新闻的手段相比,分解的双线性编码生成的外示更有判别力,在图像分类和视觉问应义务上的性能超过了一些最新的手段。

参考文献

[1] Lin,T.-Y.; RoyChowdhury, A.; and Maji, S. Bilinear cnn models for fine-grainedvisual recognition. In Proceedings of the IEEE International Conference onComputer Vision (ICCV), 1449– 1457, 2015.

[2] Gao, Y.;Beijbom, O.; Zhang, N.; and Darrell, T. Compact bilinear pooling. InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016, 317–326.

[3] Fukui, A.;Park, D. H.; Yang, D.; Rohrbach, A.; Darrell, T.; and Rohrbach, M. Multimodal compactbilinear pooling for visual question answering and visual grounding. arXivpreprint arXiv:1606.01847.

[4] Li, Y.;Wang, N.; Liu, J.; and Hou, X. Factorized bilinear models for imagerecognition. In Proceedings of the IEEE International Conference on ComputerVision (ICCV), 2017, 2079–2087.

浏览原文”添入 AAAI 顶会交流幼组

    2009年,河南建业以黑马之姿获得了中超第3名,这是建业队史上取得的最好成绩,也是建业足球距离梦想最近的一年。

《守望先锋》今日公布了D.Va的青春校园新皮肤,学生装的宋哈娜青春洋溢,元气满满。

原标题:人均200住宽敞温馨民宿,原来欧洲自由行也可以这么省钱

原标题:84岁老人挑战南极冰上马拉松 11小时41分58秒完赛

原标题:曝索帅亲自上门面谈爆红锋煞 疯狂暗示曼联有戏

原标题:旗滨集团股东户数连续4期下降 筹码集中以来股价累计上涨12.91%