关键词 |
700-CF310E |
面向地区 |
全国 |
光端机 700-CF310E
光端机 700-CF310E
光端机 700-CF310E
Fanuc Keyboard A02B-0236-C231 + A20B-8002-0020/?04B
Siemens Simodrive Stromversorgung 6RB2000-0GA00
Kl?ckner Moeller Programmierger??t PRG22
Lenze Servomotor ID 15033426 MCS12H35-RS0B0-?A19N-ST5S00
Siemens Teleperm M Zentralprozesso?r 6DS1111-8AC
Siemens Teleperm M Anschaltbaugrup?pe 6DS1200-8AC
DENISON Hydraulics Flügelzellenpum?pe T5EC 066 014 1R00A
Siemens Simovert Spannungsbegren?zung 6SC6100-0AA80
Siemens Simodrive Stromversorgung 6SC6100-0GA00
EMG Servoventil SV1-10 /48/315/6
Simatic S7-300 CPU313C-2 DP 6ES7 313-6CF03-0AB0
Danfoss dv/dt filter IP00 Type 130B2388
Danfoss / Schaffner Sinuswellen-Fil?ter IP20 Type 130B24
StockerYale COBRA Slim Linescan Illuminator CIL-370-100
StockerYale COBRA Slim Linescan Illuminator CIL1000370R
StockerYale COBRA Slim Linescan Illuminator CIL03700100
BBC Baugruppe 88FT01 GJR2332200R0001
BBC Baugruppe 88VA01E GJR2312300R1000
GEFRAN Leistungsstelle?r GTF-150-600-1-1?-1-0
Siemens Teleperm M Speicherbaugrup?pe 6DS1844-8CA
Telemecanique Frequenzumricht?er ALTIVAR 5 ATV452U55
BBC Baugruppe 88EB02 GJR2349000R1000
Simatic S5 Speicherbaugrup?pe 6ES5 513-3LB11
ABB Baugruppe 88VU01E 88VU01A-E GJR2326500R1011
Schunk Hydrodehn Spannfutter F25/17 20029878
浅层CNN网络的训练
这里我们以正文图9-上所示浅层C-CNN网络的训练为例,说明如何使用BP算法进行深度网络参数的训练。该网络仅含有一个卷积——Pooling层,Pooling采用Max方式并使用Rectier非线性映射函数,后是Softmax分类器,不加全连接隐含层。重新梳理一些正向计算的过程,文本原始表示不再叙述,这里以一个样本的处理为例,也就是已经得到了文本的矩阵表示S∈RI*d,I是文本词语数目,d是词语向量维度。
记ki∈Rn*d为第i个卷积核,ci∈RI-n+1为第i个卷积核与句子卷积的结果,imax∈Rm记录Max-Pooling的大值下标,r∈Rm为Pooling后的结果,W∈Rm*o为非线性映射的结果,也是Softmax分类器的输入,b∈Ro为权值,b∈Ro为偏值,y∈Rm*o为输出。其中,n为卷积核大小,是超参数,i∈{1,2,...,m},为卷积核个数,o是超参数,是分类类别个数,由问题本身确定。
至此,前向计算过程已经完成,对于整个C-CNN模型,需要学习的参数记为θ,是所有的词语向量,k表示所有的卷积核。对于词语向量,我们是先通过word2vec方法预先训练好的,如果在CNN模型训练过程中保持词语向量一直不变,则ν不作为网络参数,这种做法我们记为静态词语向量方法,记为static-vector。
对于分类问题的求解,我们可以小化均方误差,也可以小化交叉熵,事实上对于softmax分类器,两种目标函数是等价的。这里我们给出交叉熵形式的损失函数:
其中,N为全部训练样本个数,I{.}为指示函数,若内部表达式成立则取值为1,否则取值为0。Ω(θ )表示对于模型参数的正则项,主要是基于能量角度,对参数的元素值进行惩罚:
对模型的训练就是求得使(A-6)式小化的参数值θ,一般使用基于随机梯度下降(Stochastic Gradient Descent , SGD)的反向传播(Back-Propagation, BP)算法进行求解,求出L(θ)关于各参数的梯度,然后通过式(A-8)进行迭代计算,直到参数θ达到收敛。
其中η表示学习率,一般使η为迭代周期t的非增函数,也就是随着迭代次数的增加,学习率逐渐减小。式(A-6)中的目标函数,前面一部分是交叉熵,记为E,后面一部分是正则项。对于各参数梯度的求解,我们可以分为两部分进行,并且仅考虑一个样本的情况:
全国700-CF310E热销信息
站内来访