如果你爬过山,怎会不了解机器学习?(3)
2023-05-03 来源:飞速影视
策略是一种将输入计算机的 36 万个数字转变成“猫”或“非猫”(用计算机语言来说就是“1”或“0”)的方法。用数学术语来表达的话,策略就是一个函数。事实上,为了更贴近心理现实,策略的输出可能是一个介于 0 和 1 之间的数,它代表了当输入是一幅模糊的猞猁或加菲猫枕头图片时,机器可能想表达的不确定性。当输出是 0.8 时,我们应该将其解读为“我几乎可以肯定这是一只猫,但仍心存疑虑”。
例如,你的策略可能是这样一个函数:“输出你输入的 36 万个数字的平均值”。如果图片是全白的,函数给出的结果就是 1 ;如果图片是全黑的,函数给出的结果就是 0。总的来说,这个函数可以测量计算机屏幕上图片的总体平均亮度。这跟图片是不是猫有什么关系?毫无关系,我可没说它是一个好策略。
我们如何衡量一个策略是否成功呢?最简单的方法是,看看那台已学习过2000幅猫和非猫图片的计算机接下来的表现。对于每幅图片,我们都可以给策略打一个“错误分数”【现实世界中的计算机科学家通常称之为“损失”(error or loss)】。如果图片是猫且策略的输出是 1,那么错误分数为0,也就是说答案正确。如果图片是猫而策略的输出是0,那么错误分数为 1,这是最坏的一种可能。如果图片是猫而策略的输出是0.8,那么答案近似正确但带有些许不确定性,错误分数为0.2。(衡量错误程度的方法有很多种,这里说的并不是实践中最常用的那种,但它更易于描述。)
把用于训练的所有2000幅图片的错误分数加总,就会得到总错误分数,它可以衡量你的策略是否成功。你的目标是找到一个总错误分数尽可能低的策略,怎样才能让策略不出错呢?这就要用到梯度下降法了,因为现在你已经知道策略随着你的调整而变得更好或更差意味着什么。梯度测量的是,当你对策略稍做改变时错误分数的变化幅度;在你能对策略做出的所有小改变中,选出可使错误分数下降幅度最大的那个。梯度下降法不仅适用于猫,只要你想让机器从经验中习得策略,它就通通适用。
在这里,我不想低估计算方面的挑战。那台学习识别猫的计算机更有可能用数百万幅图片来训练自己,而不只是2000幅。这样一来,计算总错误分数时可能就需要加总100万个错误分数。即使你拥有一台强大的处理器,也需要花不少时间!所以在实践中,我们经常使用梯度下降法的变体之一——随机梯度下降法(Stochastic gradient descent)。这种方法涉及数不清的微小变化和错误分数,但它的基本理念是:第一步,你从大量的训练图片中随机选择一幅(比如,一只安哥拉猫或一个鱼缸的图片),然后采取可使这幅图片的错误分数降至最低的那个步骤,而不是把所有的错误分数加在一起。第二步,再随机选择一幅图片,重复上述做法。随着时间的推移(因为这个过程要进行很多步),最终所有图片可能都会被考虑到。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号