大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

机器学习的真面目

2015-11-8 13:31| 发布者: admin| 查看: 11371| 评论: 0

摘要: 好了,并不是所有事物都和听说的那样美好,机器学习也有它的局限之处。我们不能构建类似于《星际迷航》中的Data或者《2001太空漫游》中的Hal 9000这样的智能机器。但是,我们拥有足够的现实世界的应用程序,机器学习 ...

好了,并不是所有事物都和听说的那样美好,机器学习也有它的局限之处。我们不能构建类似于《星际迷航》中的Data或者《2001太空漫游》中的Hal 9000这样的智能机器。但是,我们拥有足够的现实世界的应用程序,机器学习在此神奇般的起着作用。下面是一些实用机器学习应用中最常见的分类:


图像处理


图像处理的问题基本上都需要分析图像获取数据或是做一些转换。下面是一些例子:


  • 图像标记,比如在Facebook中,算法可以自动检测照片中出现的你的或者你朋友的脸。基本上是机器学习算法从你手动标记的照片中学习。


  • 光学字符识别(OCR),算法学会将手稿或者扫描文本转换成数字化版本。该算法需要学会将手写字符图像转换成相应的数字化字母。


  • 自动驾驶汽车,让汽车通过图像处理来自动驾驶的机制之一。机器学习算法通过摄像机拍摄的每一帧图像来学习哪里是道路的边缘,是否有停车标志或者是否有车靠近。


文本分析


文本分析是我们从文本文件,比如推特,邮件,聊天记录,文档等中提取或分类信息。下面是一些流行的例子:


  • 垃圾邮件过滤,是最为人知也是最常用的文本分类应用(给文本分类)之一。垃圾邮件过滤器学习如何基于内容和主题将邮件归类为垃圾邮件。


  • 情感分析,文本分类的另一个应用,该算法必须学会基于作者表达的情绪,来将一个观点分类成积极、中立或者消极。


  • 信息提取,从文本中,学会提取特定的信息或数据块,比如,提取地址,实体,关键词等。


数据挖掘


数据挖掘是用来从数据中发现某些模式或者做出预测。这个定义有点普通,不过你可以理解成从海量数据库表中挖掘有用的信息。每一行都可以是我们的训练实例,每一列都可以作为一个特征。我们可能会感兴趣用表中剩下的列来预测一条新的列,或者发现某种模式来对行进行分组。比如:


  • 异常检测:检测异常值,例如信用卡欺诈检测,你可以从一个用户平常的购物模式来检测哪些购物方式是异常行为。


  • 关联规则:比如,在超市或者电子商务网站,你可以通过观察哪些产品会一起被购买来发现客户的购买习惯。这些信息可以用于营销目的。


  • 分组:比如,在SaaS平台,可以通过用户行为和资料来对用户进行分组。


  • 预测:从剩余变量中预测出另一个变量(数据库中的一列)。比如,你可以通过对现有客户资料和信用评分这些信息来学习并预测新客户的信用评分。


视频游戏与机器人


视频游戏和机器人是机器学习得到应用的一个巨大领域。一般来说我们有一个Agent(游戏角色或机器人),它必须根据环境(视频游戏中的虚拟环境或者对于机器人来说的真实环境)来行动。机器学习可以使这个Agent执行任务,比如移动到某个环境中而同时避开障碍或者敌人。在这些情形下一个最受欢迎的机器学习技术是强化学习,Agent通过学习环境的强化系数(如果Agent碰到了障碍物强化系数则为负,如果达到目标则为正)来执行任务。


好了,我现在知道什么是机器学习了,但是它是如何工作的呢?


大约10年前我读过的第一批关于机器学习书籍中有一本是Tom Mitchell写的《机器学习》。这本书是1997年写的,但是书中的总体概念在今天仍然有用。


在那本书中,我喜欢书中对机器学习的正式定义,如下:


对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习。


比如,人工游戏玩家要学会下国际象棋(任务T),可以通过查看以前国际象棋比赛或与导师对弈(经验E)来学习。它的性能P可以用它与人类玩家对弈获胜的比例来度量。


让我们用更多例子来阐述:


案例1:向系统中输入一张图片,系统需要判别图片中是否有巴拉克·奥巴马的脸(一般来说是类似于Facebook的图像自动标记)。


案例2:向系统中输入一条推文,系统判别这条推文是否带有积极或消极情感。


案例3:向系统中输入某人的一些信息,系统计算出此人偿还信用卡贷款的概率。


在案例1中,系统任务是检测巴拉克·奥巴马的脸何时在图像中出现。可以将他出现在哪些照片或不出现在哪些照片中的信息作为经验。系统的性能可以用系统正确识别出奥巴马脸的次数比例来度量。


在案例2中,系统任务是对一条推文进行情感分析。系统的经验可以是一组推文和与它们相对应的情绪。系统的性能可以由系统对新推文情感分析正确的比例来度量。


在案例3中,系统任务是进行信用评分。系统可以将一系列用户资料和相对应的信用评分作为经验。可以用平方误差(预测和预期得分之间的差异)作为性能度量。


为了让算法学习将输入转换成期望的输出,你必须提供训练实例或者训练样例,也就是Mitchell所定义的经验E。一组训练集是一系列实例的集合,它们将作为样例,机器学习算法从这些样例中学习并且完成预期任务。很好理解,不是吗?这就像你给小孩示范如何扔球一样,你扔几次球来教他如何做,然后通过观看那些样例,他开始学会自己扔球了。


每一个训练实例通常表示为一组固定的属性或特征。特征是用来表示每一个实例的方式。例如,在案例1中,一张图片可以由每个像素的灰度级别来表示。在案例2中,推文可以用推文中出现的字词来表示。在案例3中,信用记录可以用此人的年龄、薪水、职业等来表示。


计算和选择合理的特征来表示一个实例是使用机器学习的过程中最重要的任务之一,在本文稍后部分我们将讨论这点



鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

GMT+8, 2024-11-21 22:22 , Processed in 0.184871 second(s), 21 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

返回顶部