域自适应学习(Domain Adaptation Learning)能够有效地解决训练样本和测试样本概率分布不一致的学习问题。在传统的机器学习算法中,通常假设训练样本和测试样本来自同一概率分布,然后设计相应的模型和判别准则对待测试的样例的输出进行预测。但是,很多场景下是不满足这个概率分布相同的约束的,域自适应学习问题就是为了解决这种源域和目标域概率分布不一致的情况。
自适应学习假设:
-
协变量迁移假设
-
概念迁移(Concept shift)假设
-
先验概率迁移(Prior probability shift)
从不同的学习场景看,域自适应学习可分为:分类问题、回归问题和聚类问题。
解决多源域自适应学习问题的方法可以分为三大类:基于源于判别函数学习的方法、基于正则化项加权组合的方法和基于流形平滑性假设的方法。
理论分析:
域自适应学习理论研究主要集中于:
-
学习的可行性:满足什么条件才可能实现域自适应学习?
-
学习的鲁棒性:域自适应学习的鲁棒性与普通意义上的鲁棒性是不同的,在域自适应学习的鲁棒性中,将训练样本分布和测试样本分布之间存在的差异视为“扰动”,通过克服扰动,实现对目标域的学习。
-
学习的统计估计一致性:域自适应学习算法应使用尽可能少的样本数,具有尽可能好的泛化能力,实现最小的误差上界。
注意力机制(Attention Mechanism)源于对人类视觉的研究,主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。在计算能力有限的情况下,注意力机制是解决信息超载问题的主要手段(一种资源分配方案),将计算资源分配给更重要的任务。
注意力一般分为两种:
-
聚焦式(focus)注意力:自上而下的有意识的注意力,有预订目的、依赖任务的、主动有意识地聚焦于某一对象的注意力。
-
基于显著性(saliency-based)的注意力:自下而上无意识的注意力,由外界刺激驱动的注意,不需要主动干预,和任务无关。如果一个对象的刺激信息不同于其周围信息,一种无意识的赢者通吃(winner-take-all)或门控(gating)机制就可以把注意力转向这个对象。
每个部分的大概介绍可以看
参考文献
。
Hinton的文章
《Distilling the Knowledge in a Neural Network》
中首次提出了知识蒸馏(暗知识提取)的概念,通过引入与教师网络(teacher network:复杂,但推理能力优越)相关的软目标(soft-target)作为整体损失的一部分,以诱导学生网络(student network:精简、低复杂度)的训练,实现知识迁移。
二者也可以联合训练,
论文地址
。
这篇文章重新定义了整体损失。
代码
。
多教师方法
。
Hint-based Knowledge Transfer
,
代码
。
Attention to Attention Transfer
,
代码
。
Flow of the Solution Procedure
Knowledge Distillation with Adversarial Samples Supporting Decision Boundary
Label Refinery:Improving ImageNet Classification through Label Progression,
代码
。
更多内容,欢迎加入星球讨论。
注意力
机制
的核心重点就是让网络关注到它更需要关注的地方 。当我们使用卷积神经网络去处理图片的时候, 我们会更希望卷积神经网络去注意应该注意的地方,而不是什么都关注 ,我们不可能手动去调节需要注意的地方,这个时候,如何让卷积神经网络去自
适应
的注意重要的物体变得极为重要。
注意力
机制
就是实现网络自
适应
注意的一个方式。一般而言,
注意力
机制
可以分为通道
注意力
机制
,空间
注意力
机制
,以及二者的结合。SENet是通道
注意力
机制
的典型实现。 重点是获得输入进来的特征层对应的每一个通道的权值 。通过学习的方式自动获取每个特征
为了充分利用电力信息系统中的异构数据源挖掘出电网中存在的安全威胁, 本文提出了基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的多源日志综合特征提取方法, 首先采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码, 随后采用对比散度快速学习方法优化网络权值, 利用随机梯度上升法最大化对数似然函数对RBM模型进行训练学习, 通过对规范化编码后的日志信息进行处理, 实现了数据降维并得到融合后的综合特征, 有效解决了日志数据异构性带来的问题. 通过在电力信息系统中搭建大数据威胁预警监测实验环境, 并进行了安全日志综合特征提取及算法验证, 实验结果表明, 本文所提出的基于RBM的多源日志综合特征提取方法能用于聚类分析、异常检测等各类安全分析, 在提取电力信息系统中日志特征时有较高的准确率, 进而提高了网络安全态势预测的速度和预测精度.
Introduction
目前大多数的基于 Attention
机制
的 Image Captioning 模型采用的都是 encoder-decoder 框架。然而在 decode 的时候,decoder 应该对不同的词有不同的 Attention 策略。例如,“the”、“of”等词,或者是跟在“cell”后面的“phone”等组合词,这类词叫做非视觉...
Transfer learning、Domain adaptation以及小样本学习
文章目录Transfer learning、Domain adaptation以及小样本学习前言一、迁移学习(Transfer learning)二、
域
自
适应
(Domain adaptation)三、小样本学习1.引入库2.读入数据总结
从人工建立基于规则的
知识
库到从数据中进行机器学习,使机器像人类一样思考的尝试已经走了很长的路。目前,机器学习已经从一个模糊的学科发展成为了一种推动工业和社会发展的重要力量。
例1 一句话
如下图所示,第一种方式可以利用one-hot encoding,但是这种方式下每一个词之间没有关系。第二种方式是word enbedding,很显然这种方式下类别相同的词聚集在一起。
共同点:一个词对应一个向量,即一句话对
BERT、RoBERTa、ALBERT、SpanBERT、DistilBERT、SesameBERT、SemBERT、MobileBERT、TinyBERT和CamemBERT的共同点是什么?答案并不是“ BERT”????。
而是“自
注意力
”????。我们不仅在讨论承载“ BERT”的架构,更准确地说是基于 Transformer 的架构。基于 Transformer 的架构主要用于对语言理解任务进行建模,避免使用神经网络中的递归,而是完全信任自
注意力
在输入和输出之间绘制全局依赖性的
机制
。但是,这背后的