亚博网页版登陆_北京大学王立威教授:机器学习理论的回顾与展望(二)

本文摘要:(公众号:)[AI科学技术评论]称:这篇文章由王利伟教授在中国人工智能学会AIDL二期人工智能先进研讨会*机器学习先锋上不做报告,用《机器学习理论:总结与未来发展》编辑整理而成,在没有改变本意的基础上稍加删除。

亚博网页版登陆

(公众号:)[AI科学技术评论]称:这篇文章由王利伟教授在中国人工智能学会AIDL二期人工智能先进研讨会*机器学习先锋上不做报告,用《机器学习理论:总结与未来发展》编辑整理而成,在没有改变本意的基础上稍加删除。王立伟王立伟在北京大学教授的主要研究领域为机器学习。还包括COLT、NIPS、JMLR、PAMI等权威会议杂志,公开了60余篇论文。

他是2010年被AI’s 10 ~ Watch选定获得该奖的第一位亚洲学者。2012年第一届国家自然科学基金优秀青年基金确保新世纪优秀人才。

担任NIPS等权威会议的Area Chair和多家学术杂志编辑委员会。下面是王利伟教授做的现场演讲的第二部分,主要讲述面积VC理论的解说。接下来,我想向大家说明机器学习的第一个理论,以及机器学习中到目前为止影响最大的理论之一。

(威廉莎士比亚、机器学习、机器学习、机器学习、机器学习、机器学习、机器学习、机器学习)这个理论被称为“VC理论”,VC这个字代表两个人名字的首字母。他们是Vapnik和Chervonenkis。

一开始我提到机器学习中除了深度自学之外,还有很多最重要的算法,本质上是纯理论的学者明确提出的。(威廉莎士比亚、哈姆雷特、机器学习、机器学习、机器学习、机器学习、机器学习、机器学习、机器学习)其中SVM由VC理论中的Vapnik明确提出。我们思考了“VC理论”对机器学习理论的解释。

这里有很多定义。我不一一说明,我只说明个别的名词。

(大卫亚设,Northern Exposure(美国电视),定义)一些数据,例如这个数据,可以表示图像空间中不存在的数据。对该图像进行分类后,类别标签也可以作为子集查看。自学时,只有最重要的假设,也是基本的理论框架。也就是说,我们必须假设我们观察到的数据是根据一定程度的随机性产生的。

约翰肯尼迪。例如,我们现在接受研究图像分类问题的任务。我现在有1000万个图像。例如,像ImageNet一样,这个ImageNet可以想象从世界上所有可能相关的图像中随机提取。

这个假设很合理(约翰肯尼迪,Northern Exposure(美国电视),作品)指出,里面的数据是随机提取的,可以指出,这种随机提取是根据某种生产状态随机提取的。(威廉莎士比亚、模板、随机提取、随机提取、随机提取、随机提取)而且我们还可以假设,在未来,我们需要从这些数据中学习分类器,学习模型后,我们需要应用到活动的数据中。也就是说,当我们实际应用的时候,那些资料也是随机提取的,训练数据和一定程度上要从产品中提取的假设是有一定必然性的。(约翰肯尼迪,Northern Exposure(美国电视),学习)如果我以后应用的地方和我训练的场景不是一样的话,可能会有一些差异,但如果应用于场景与训练场景没有任何关系,机器学习就不可能成功。

约翰肯尼迪)以下是一些基本定义。还有另一个定义。

也就是说,自习的时候要有模特。这个模型可以是线性模型,就像之前推荐的例子一样。也可以是非线性模型,如SVM。

线性模型谁都可以解释,SVM可以看作是线性模型,例如低维空间,甚至无限维。或者学深度自学,学互联网,但不管用什么型号,分类器都可以允许在某个子集。

(约翰f肯尼迪,学习)(JON F . Kendey,英语)线性模型是所有线性模型的子集,SVM是希尔伯特空间的线性分类器。如果你是网络,网络的水平和结构都相同,那就是同一层次下所有可能的网络的子集。(阿尔伯特爱因斯坦、Northern Exposure(美国电视剧)、Northern Exposure(美国电视剧)参数不同,无法获得其他网络。

当然,如果你有层数和结构性星星,我可以重新扩展我的子集。这些子集通常称为虚拟空间(hypothesis space)。

换句话说,你自学的模型总是来自限量版,而不是凭空自由选择的。这个概念只不过是很重要的
请总结一下前面提到的“胡克定律”和“开普勒定律”。

但是,都与这个问题有关。胡克定律本质上允许线性模型使用假设空间已经很久了。

允许后,你可以找到最差的线性模型来适应环境。开普勒模型在椭圆模型中是允许的。因此,假设模型是最重要的。刚才,我将通过这些基本概念来说明自学理论最重要的概念——3354泛化。

什么是一般化,一般化只是很简单而已。如上所述,自学的目的是了解模型,并对未来场景中要应用的数据具有非常低的准确性。

一般化的错误是指一个模型适用于未来场景的错误率,称为一般化。为什么叫一般化?我们可以把它和我们经历过的错误或训练数据中的错误进行比较。

一般来说,在训练一个问题时,可以得到很多训练数据,学习分类器,从训练数据中得到错误率。这个训练的错误率和刚才提到的一般化错误率从本质上可以看到,这两者有很本质的区别。

这个差异就是机器学习理论要研究的内容。刚才我们谈到了“对数定律”、“中心无穷大定理”,比如抛硬币,扔了很多次后的平均值最终不会走向数学希望。如果从技术上仔细考虑我们刚刚学到的自学,同等分类者、这个分类器的错误率(例如教育数据的错误率)本质上对每个教育数据是不正确的。这个值是所有教育数据的平均值。

错误的记录1,正确的记录0,这就是这样的平均值。(约翰肯尼迪,Northern Exposure(美国电视),)根据我们刚才讲的“对数定律”,“中心无穷大定理”,“中心无穷大定理”,“不等式”,都是随着训练数据的减少看看这个数学希望就是我们之前定义的所谓泛化错误。广义错误只是对你错误率的数学希望。

以后看不到的数据的错误率是你的期望。(大卫亚设,Northern Exposure(美国电视剧),那么“代数法则”为什么不是呢?你的问题被抛弃在必要的问题解决上了吗?我只要训练,找训练模式,他在训练中就有一个小错误。“对数定律”是否希望错误率低,“希望错误率”是我们今后适用于场景的错误率。

这里有什么问题吗?这里有最重要的逻辑错误。也就是说,自学过程是指从相当大的模型子集中选择明确的模型的过程,应该选择这个过程,使刚才我们说的“对数定律”不再适用。如果你对这个细节感兴趣,请大家回来仔细考虑我的页面PPT的内容。

选择这个课程是很关键的。由于追加型号范围相当大,这时你挑选的型号的训练错误率未必和希望相似,也可能大不相同。用“大卫亚设,Northern Exposure(美国电视连续剧),模型法则”更直观的例子,比如这里有一个弹簧,做100次实验,如果我把这个模型空间放到所有可能的99次多项式中,我一定要在这个模型空间里做99次多项式为了使我们观察到的100个数据几乎能复盖区域,此时你的训练错误率为0,但这时一般化的结果是,在进行新的实验和获得新的数据集时,你希望的错误率是多少?(阿尔伯特爱因斯坦,科学)如果给第99次多项式,波动会很大,那么在新的数据出来后,这个第99次多项式的性能很差,直观地看起来是没有稳定性的。

(阿尔伯特爱因斯坦,Northern Exposure(美国电视电视剧),成功)这被称为超大号。因为是指从相当大的子集中提取的这个模型,所以这个模型处理你的数据很好,但你过度赋值,不超过一般化的目的。

在这里说一句。我不会在后面重点提到这个问题,但今天也有很多老师、同学在进行深度自学。你们都可以说相当多的老师和同学有神经网络训练经验。(大卫亚设,Northern Exposure)你们在训练神经网络的过程中没有这样的经历。

在训练实验的很大一部分,你的训练错误可以反抗得很低。但是在我的测试数据中,开始这个测试数据的可能性仍然在减少,但如果在一定程度的训练后进行训练,测试失误就会提高。这是一个训练深度自学时不常遇到的问题。

这就是典型的过度数据。在训练数据上做得很好,但测试数据的差异相当大。只是这种现象也是机器学习最明显的现象,我并不是因为深度自学时代的到来,而是不存在过多的数字。

即使使用相当大的数据集,也仍然不存在。姜柱君老师告诉我们,近年来随着深度自学的发展,避免数值更为重要。(威廉莎士比亚、泰姆派、德高望重) (威廉莎士比亚、泰姆派、自学)因此,在当今大数据时代、深度自学的时代,仍然会经常再次发生,以后可以更详细地谈论这个问题,谈谈如何解决问题,谈谈我自己的想法。

(大卫亚设,Northern Exposure(美国电视),成功)回到刚才的问题,如何确保机器学习有非常好的泛化能力?其中提到了最重要的概念之一,即“统一生成”。简单地说,你现在的目的是确保你学到的分类器在未来产生良好的效果。而且你想确保这一点。事实上,你刚才建模后的这个空间里的所有分类器都要有比较好的泛化能力,同时具备比较好的泛化能力。

(威廉莎士比亚,温斯顿)()只有在这样做的时候,才能学习分类器,才能拥有比较好的泛化能力。因为在观察训练数据之前学到的东西不会告诉你不能成为什么分类者。因此,如果能对子集内所有可能的分类器确保良好的泛化能力,你学到的东西也能确保这种能力。

那么,如何才能确保在所有子集内选拔的分类器具有良好的泛化能力呢?那和什么有关?我今天不谈论太多数学细节。其核心是你在后期选择的模型子集有多大。

(约翰f .肯尼迪,学习)对这个符号的明确意思是,如果你选择的模型子集是有限的,并且只包含有限数量的分类者,那么这个符号表示它不包含的分类者的数量。(阿尔伯特爱因斯坦)简单地说,模型中包含更多的分类器,所以学习的分类器要有更好的泛化能力,需要更好的数据。(大卫亚设,Northern Exposure(美国电视连续剧),模型)回到胡克的例子,如果使用非常简单的模型,例如使用初级线性模型,那么初级线性模型就是一个比较小的子集,但本质上包含无限多的元素。

线性模型无限多,所以它是倒数。可以直观地指出,这个地方是更小的模型,元素数量更少。

亚博网页版登陆

由于初级线性模型在一定程度上是一个小子集,这时只需要做一些实验,10个观察数据可以学到更好的模型,还有可能再学到一个新的数据。它的泛化能力比较好。(阿尔伯特爱因斯坦,Northern Exposure(美国电视),成功)但是如果你知道要学习模型,例如第99次多项式,你需要的数据量就会多得多。

正如刚才所说,你有100个想学第99次多项式的数据。这个自学理论说100个数据太少,需要得到1万个数据。观察10000个数据时,我们再来看一下第99次多项式。

哪个最差的99次多项式应该更符合我的训练数据?这个第99次多项式是第99次多项式的第99次,98仍然在第二个项目前面的系数本质上是完全为零的,本质上是现象级的。现在让我总结一下。这个自学理论告诉他,如果我在后线的子集自由选择模型,那么理解所需的数据量必须与模型的复杂性相关。

(威廉莎士比亚、温斯顿)今天更难得的深度自学,可以做出比较形象的比喻。如果你想训练一个1000层的网络,例如,这个网络有数百万个节点,如果你说你想训练一个10层的网络,那么这个网络可以是数千个节点。

想想什么样的网络需要更多的训练数据。认同感是模型简单,深入的节点数更多,需要的教育数据量更多。另一种方法是,如果我等于10万数据,那么为了训练,我需要自由选择什么规模的网络。这对实际应用有相当大的指导意义。

如果你不理解这个机器学习的基本思想,那就没有指导意义了。(大卫亚设,Northern Exposure(美国电视),学习)所以机器学习大体上可以告诉你,在什么范围内应该自由选择模型的复杂性,这本质上可以知道机器学习理论是干什么用的。约翰肯尼迪,学)那不是明确的证据,而是告诉他你的高水平想法。

这里告诉他的是,当你有一些数据量时,你要根据你的数据量自由选择模型的复杂性。约翰肯尼迪,数据名言)如果大家不相信可以回来做实验,拿1万个数据,认为你用数百层神经网络训练,我刚才说的过度数字现象就不会再次发生了。(大卫亚设,Northern Exposure)我估计你做了10次实验。

至少有8,9次会再次发生这种现象。刚才说了VC理论,如果是那么简单的故事,那就不能说是理论了。它的理论技术上的核心是要得到非常准确的分析叙述。

这个分析叙述本质上是可以得到无限子集的简要叙述。刚才说过,如果限制一个大的子集,那么这个子集的元素数量就是对它大小的描述,但是这个子集是无穷大的时候,该怎么描述呢?(大卫亚设,Northern Exposure(美国电视剧),创作)因此,V,C两个人明确提出了一个理论,为无限的子集创造了VC维度(VC dimesnion)这个描述性参数。描绘了无限的子集。如果分类器都包括在内,会有多复杂?约翰肯尼迪,Northern Exposure(美国电视),分类)人们不会发现它的应用非常广泛,你也不会发现它在电脑的很多领域都有广泛的应用。

约翰肯尼迪,电脑名言)总之,VC维度越大,说明模型就越简单。要想训练好这种模型,需要很多训练数据。

如果感兴趣的老师和同学能清楚地看到一些例子,罕见的模型就能计算VC维度。使用经典模型,如线性模型,可以提供一般的分析说明。

如果模型的VC维度是10,应该使用多少教育数据?我指出,需要VC层面的约10倍,即100个教育数据。因此,如果VC维度是1亿个模型,只有1000个教育数据,就不能很好地训练。过度的数字识别非常严重。

但是,如果VC dimesnion比数据小得多,南北的另一个极端3354数值就严重不足(under-fitted)。也就是说,最差的模型还不能从数值上训练数据,所以在这方面要多加注意。

最后,VC维度描述的到底是什么?VC维度描述在某种型号子集上训练,描述型号子集的复杂性,研究结构的性质。(阿尔伯特爱因斯坦,Northern Exposure(美国电视剧),)VC维本身没有告诉我们任何算法。告诉我你现在有这样的VC维度。

任何模型的子集,例如,可以估计其VC维。你大致告诉我需要使用多少训练数据,但这并没有问你自学算法中使用什么VC维。(约翰肯尼迪,自学,自学,自学,自学。你的自学算法与VC维度交织在一起。

本质上,这意味着在该模型的子集内找到使训练错误更大的方法。(约翰肯尼迪,学) (约翰肯尼迪)很多其他自学理论和VC理论不知道最重要。

VC理论不太参与算法,研究子集大小的复杂性。使用VC维D,可以大致知道泛化错误和教育错误之间存在什么分析关系。核心是D/N,N是数据量,D是VC dimesnion。

所以就像我刚才说的,至少是VC dimesnion的10倍的数据量。这样才能使秋浩下的数据足够小。这里可以用一幅画更好地表达概括错误和训练错误。

该图的横坐标是模型子集的复杂性,左低右低。纵轴表示错误。这条曲线是经验错误。

此U曲线是广义/测试错误。模型最简单的时候,即数字严重不足,教育错误和泛化错误相当大,到最右边也会得到过度的数字。也就是说,虽然教育误差很低,但由于模型非常复杂,泛化误差也相当大,因此需要找到非常适合最终模型自由选择的范围的复杂性。

约翰肯尼迪,北方执行模型)这是VC理论可以给我们带来的想法之一。你需要找到一个适合复杂性的模型。刚才说的VC理论本身只是没有涉及算法而已,但是进行机器学习最终还是要实施算法,有没有办法利用VC理论这样的思想来帮助我设计算法?(威廉莎士比亚,Northern Exposure(美国电视剧),但最少使用的是规范化。

很多人可能听说过这个方法。例如,您可以使用结构风险最小化(SRM)中明确提出的层次结构(hierarchy)来创建模型的子集。更好的规范化是,我优化的目标是我训练的数据。但是我还会增加一件事,涉及模型的复杂性。

(约翰肯尼迪,Northern Exposure(美国电视),成功)刚才谈到了模型的复杂性对泛化错误的影响,如果使用中庸算法,大自然的一个思想就是中庸正则化。约翰肯尼迪)这是在算法层面构建的,这是最重要的。

SEM,可以看到非常典型的L2的规范化。前面就是所谓的训练损失。

还有L1的规范化、拉索等。而且,Boosting是一个递归过程,每个递归一步分解基本分类器,最后将所有基本分类器合并为一个整体。随着递归的大幅减少,模型似乎不是更简单。如何解决问题模型过于简单而最终产生的过度数值?Early stoping是一种方法。

那你在深度自学中用过early stoping吗?使用网络时,实际上总是使用early stoping。训练特定epoch时必须停止。(约翰肯尼迪,Northern Exposure(美国电视),)如果偶尔让我大递归,我最终很有可能不会过度数值。(威廉莎士比亚,泰姆派斯特,希望如此)你递归1000个和递归50个的结果可能不同。

但是1000个以后的epoch可能会比50个小很多,但是递归的1000个测试错误已经太大了,看不到了。本文是北京大学王立伟教授《机器学习理论的总结与未来发展》主题报告(2),之前的主题报告是不引人注目的[AI科学技术评论]之前的报道。版权文章,发布许可禁令。

下面,我们来听一下关于刊登的注意事项。

本文关键词:亚博网页版登陆,亚博网站提现速度的

本文来源:亚博网页版登陆-www.eyemaxcentral.com

相关文章