神经网络的介绍一、历史回顾二、单层感知机与多层感知机三、BP网络四、卷积神经网络五、内容小结内容安排2历史回顾(1)第一次热潮(40-60年代未)1943年,美国心理学家W.McCulloch和数学家W.Pitts在提出了一个简单的神经元模型,即MP模型。1958年,F.Rosenblatt等研制出了感知机(Perceptron)。(2)低潮(70-80年代初)20世纪60年代以后,数字计算机的发展达到全盛时期,人们误以为数字计算机可以解决人工智能、专家系统、模式识别问题,而放松了对“感知器”的研究。人工神经网络进入低潮期。3(3)第二次热潮1982年,美国物理学家J.J.Hopfield提出Hopfield网络.1986年Rumelhart等提出的误差反向传播法,即BP法影响最为广泛。直到今天,BP算法仍然是自动控制上最重要、应用最多的有效算法。(4)低潮(90年代初-2000年初)SVM算法诞生,与神经网络相比:无需调参;高效;全局最优解。基于以上种种理由,SVM成为主流,人工神经网络再次陷入冰河期。(5)第三次热潮(2006年开始)在被人摒弃的10年中,有几个学者仍然在坚持研究。这其中的棋手就是加拿大多伦多大学的GeofferyHinton教授。2006年,Hinton在《Science》和相关期刊上发表了论文,首次提出了“深度学习”的概念。很快,深度学习在语音识别领域暂露头角。接着,2012年,深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中,用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练,取得了分类错误率15%的好成绩,这个成绩比第二名高了近11个百分点,充分证明了多层神经网络识别效果的优越性。单层感知机的介绍单层感知器是用于线性可分模式分类的最简单的神经网络模型。用来调整这个神经网络中自由参数的算法最早出现F.Roseblatt(1958,1962)提出的用于脑感知模型的一个学习过程中。6网络模型结构其中x=(x1,…xm)T输入向量,y为输出,wi是权系数;输入与输出具有如下关系:miiibxwfy1)(b为阈值,f(X)是激发函数;它可以是线性函数,也可以是非线性函数.单位阶跃函数:0,00,1)(xxxfS型激发函数:,11)(xexf;1)(0xf,)(xxxxeeeexf.1)(1xftanh型激发函数:常见的三类激发函数单层感知器工作原理对于只有两个输入的判别边界是直线(如下式所示),选择合适的学习算法可训练出满意的结果,当它用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开。11220wxwxb感知机的学习策略:Mxiiibxwy).(b)L(w,minbw,).sgn()(fbxwx感知机的算法是基于梯度下降法的对损失函数的最优化算法。单层感知器是线性可分模型感知器的输出只能取-1或1(0或1).只能用来解决简单的分类问题。当感知器输入矢量中有一个数比其他数都大或小得很多时,可能导致较慢的收敛速度。单层感知机的缺点多层感知机的介绍多层感知器相对于单层感知器,输出端从一个变到了多个;输入端和输出端之间也不光只有一层,可以有多层:输出层和隐藏层。网络模型结构例:如图是一个含有两个输入,三个感知机隐层神经元和一个输出神经元的三层感知机网络,若取y1y2zx1x2y3y1=sgn(2x1+2x2+1)y2=sgn(-x1+0.25x2+0.8)y3=sgn(0.75x1-2x2+1.4)z=sgn(y1+y2+y3-2.5)实现了非线性分类y1y2y3隐藏神经元的功能隐藏神经元扮演者着特征检测算子的角色。随着学习过程通过多层感知器不断进行,隐藏神经元开始逐步“发现”刻画训练数据的突出特征。它们是通过输入数据非线性变换到新的称为特征空间的空间而实现的。BP网络与多层感知机的差别感知机和BP网络都可具有一层或多层隐含层,其主要差别也表现在激活函数上。BP网络的激活函数必须是处处可微的,因此它不能采用二值型的阀值函数{0,1}或符号函数{-1,1}BP网络经常使用的是S型的对数或正切激活函数和线性函数BP网络的寻找最优参数w和b,采用的是实际输出和期望输出的误差的最佳平方逼近的思路17BP神经网络模型三层BP网络激活函数必须处处可导一般都使用S型函数使用S型激活函数时BP网络输入与输出关系输入输出1122...nnnetxwxwxw1f()1enetynetBP网络的标准学习算法...