科技新势力:机器视觉让人类看到的世界更精彩

时间: 2024-04-06 18:23:58 |   作者: 光学镜片


  • 产品介绍

  何搏飞表示,我们大脑所接收80%的信息都源自视觉,同时大脑中接近一千亿个神经元,绝大多数只做一件事情,就是处理我们的视觉信息。

  为什么我们是一步步地从文字,发展到声音,最后才到动态视频?何搏飞认为,就是因为动态的视觉信息是最丰富,但也是最复杂的。

  那么机器有没有视觉?何搏飞表示,实际上在很多领域,机器视觉已经在改变我们的生活,他举了微软体感游戏的例子说,当我们做各种动作时,它会理解我们的行为,配合多媒体的体验,让我们有种互动和丰富的感受。

  机器有了视觉之后会产生什么影响?何搏飞分享了几个案例来阐述,机器视觉可以给予我们一个更加互动、更加健康、更方便快捷的世界。

  格灵深瞳创立一年多就拿到了两轮融资,去年获得了红杉资本数千万美元的A轮融资。比尔·盖茨访华时还专门造访了格灵深瞳。何搏飞毕业于美国斯坦福大学,他和联合发起人赵勇的愿景是将格灵深瞳打造成一家千亿级的人工智能公司。

  以下是整理的何搏飞的演讲实录:大家好!“Vision”这个单词在任何一本英汉词典里,第一条解释就是视觉,视觉是什么?视觉是一种感知能力。我们人身上一共有五种感知能力,包括视觉、听觉、嗅觉、味觉和触觉。

  余凯博士刚才讲到人工智能的本质就是自主学习的能力。我们人的大脑之所以这么聪明,这么复杂,这么高级,主要是因为我们人可以自主地学习,而自主学习要源自这五种感知能力。[page]

  这五种感知能力中,我们大脑所接收的80%的信息都来自视觉,我问大家一个问题,如果我们不得已放弃四种感知能力,只保留一种,你会保留哪一种?

  我相信在座的很多人答案跟我一样,你会保留视觉信息。大家有没有想过为什么?我们都知道有这样一个数据,我们的大脑分成两半,左脑和右脑,左脑是理性,右脑是感性的,是有创造力的。

  还有一个数据可能大家并不知道,我们大脑有接近一千亿个神经元,绝大多数只做一件事情,就是处理我们的视觉信息。大家想想当我们休息时,会做什么,通常会闭上我们的眼睛,所以每一天当我们的眼睛睁开时我们在主动或者被动地接受大量的复杂信息。

  大家知道,我们人类主要是通过学习来成长,智慧也是在这样的过程中提高。那么分享知识就很重要。从几千年前开始我们人类就把文字编辑成书。但文字承载的信息量是有限的,我们还希望它更加的丰富多彩。

  所以到了100多年前有了电话,我们大家可以远距离的让听到我们的声音,后来我们就了广播,终于几十年前我们有了电视,到了十年前最近最近一段时间各位明白在网络带宽成为可能的情况下视频网站才成为可能。

  为什么从文字,到声音,到视频,一步一步到几千年前,到最近几年,才能随时随地的分享动态的画面视频?无另外的原因,就是因为动态的视觉信息是最丰富的,也是最复杂的。

  当我们讨论人工智能,讨论计算机、机器是否有学习能力时,我们第一步要问自己一个问题,那就是机器有视觉吗?我必须要这样讲,在今天绝大多数场合下,对我们绝大多数人来说,机器是没有视觉的,机器是瞎子。

  你们可能会反对我,会说我在用手机拍照,我的电脑上也有摄像头,大街小巷有这么多摄像头,难道它们不都是机器的眼睛吗?难道这不是视觉吗?但是大家想一想,当我们拍了这些照片视频,最终计算机看懂这些视频照片了吗?

  我们把它存下来,不管是单反相机、摄像机,拍完以后,最终还是要人处理这一些信息。为什么?因为在绝大多数情况下,电脑是无法处理这种复杂信息的。

  机器视觉给予我们一个更加互动的世界但今天我也要对大家说,实际上在很多领域,机器视觉已经在改变我们的生活。当我说到这儿时,可能很多人马上会想到的第一件事情是微软的体感游戏,当你做各种动作时它会理解你的行为,配合多媒体的体验,你会感受到互动和丰富的感受。

  所以,当机器有视觉的时候,首先带给我们的就是一个更加互动的世界。在这儿我给大家看一段特别有意思的视频,我的朋友黄沙,就用微软的这个传感器拍了一段动感的视频。我们大家都知道,好莱坞电影和美剧在制作的步骤中会有一个绿色的背景,它就是做一件事情,就是把人和背景区分开,这样后期制作时,就可以把绿色背景换成任何的场景,但有了三维计算机视觉,任何在座的每个人都能超越好莱坞特效师,更好地完成精彩的动画,这只是个简单的例子。

  当机器有了视觉以后,还会给我们大家带来一个更加健康的世界。举个例子,在我们做心脏手术时有一件特别痛苦的事。各位明白,人的心脏是唯一不能够被麻痹使它静止的器官,只要人活着心脏就会不停的跳动,在跳动的心脏上做手术难度是非常大的。

  所以,很多时候当要对心脏做手术的时候,医生做的第一件事情是通过医学的手段让心脏停止跳动,然后用最短的时间做完手术再让心脏重新起搏,但将有30%心脏将会永远不能再跳动起来。但如果有一种技术使医生在跳动的心脏上做手术将会挽救很多人的人。

  大家想一下,人的心脏跳动是非常有规律的,如果手术刀可以跟心脏同频率振动,医生通过摄像头看到的就是相对静止的心脏,那时动手术就等于在静止的心脏上做手术。

  这个画面上,白色的网格就是要做手术的区域,通过计算机深度视觉,已经把它稳定下来了。心脏手术很多人看了可能会不舒服,所以我们做了这样一个演示,医生给葡萄剥皮,这在国外已经应用了,我相信不会很久中国也会应用。

  机器视觉创造一个更方便快捷的世界刚才余凯博士也谈到了无人驾驶汽车,大家想一想,当无人驾驶这一天来临时,我们将有一个更方便快捷的世界。各位极客可能对刚刚过去的2015美国电子消费展CES有更深刻的印象。

  除了智能硬件以外,应该说2015年今年是无人驾驶的元年。奔驰、宝马、尼桑,几乎所有的车厂都在今年推出了自己无人驾驶汽车的计划,很多车厂宣称在2020年,就是五年以后,他们的无人驾驶汽车就会跑在大街小巷。

  我在这里有个判断,我自己觉得,无人驾驶汽车,将会是第一个真正被人类大规模使用,且对人类生活产生颠覆性影响,真正意义上的机器人。因为当汽车可以无人驾驶时,它对我们来说才是一个真正智能,不需要人为干预的机器人。

  大家可能都看到过左边这辆汽车,它实际上的意思就是Google的无人驾驶汽车。Google应该说是到现在为止全世界第一个让无人驾驶汽车在人类的公路上行驶超过100万公里的公司。

  我曾经跟Google无人驾驶汽车负责人聊过,当时我开了个玩笑,你们Google无人驾驶汽车业只敢在美国这样的城市测试,敢来北京测吗?他当时告诉我,无人驾驶汽车这件事情要成功,最大的障碍和挑战只有一个,那就是计算机视觉。[page]

  大家想一想,控制汽车的方向盘、油门、刹车,这些事情简单的传感技术就能解决,甚至如果是一个纯电动车的话,可能一个软件就能解决。告诉汽车,从A到B你的目的地在哪,这件事情GPS就可以解决。

  但面对路上发生的一切,可能很多人也学过,所以大家都知道,特别是现在自动挡的车,要把车开起来很容易,开车真正难的是怎么样应对路上各种复杂的状况,而这些需要的就是视觉的感知能力。我们想一想,假如没有视觉感知,你如何知道前面有行人在穿越马路,必须要依靠计算机视觉。

  大家可能也知道,格灵深瞳是把计算机视觉技术应用在监控领域的公司,为什么到处有这么多摄像头,连接到监控中心,有很多人盯着它看,为什么还需要计算机视觉,我们应该人工智能做这么多事儿吗?

  我在这里给大家假象一个场景,如果让你在你自己家里,你在看电视,比如时下特别热门的一部电视剧,在很认真的看,这时又把ipad摆在前面观看意甲联赛,同时你的朋友还在给你发微信,三个屏幕。

  我跟你打个赌,给你10分钟时间,10分钟以后我随机考你这三个屏幕的内容,我相信在座很少有人跟我赌,为什么?因为三个屏幕展示的东西动态画面的时候,对人来说信息太复杂了。

  但想一想,安保中心监控室面对的是这样一个屏幕,我看了很多美剧电影,有那么多高端技术,我能告诉大家,我曾经参观过拉斯维加斯所有大赌场后台的监控中心,跟中国任何一家普通银行的监控中心没有一点区别,都是这样一个大屏幕,几个人盯着这个屏幕在看。

  我自己在监控中心呆过可能超过100个小时,我当时去的时候正好是世界杯期间,保安们大多数在玩儿手机、看球赛,但相信我,如果让你们去,这不是职业道德的问题,人类是有极限的,当人盯着这样一个大屏幕看,超过10分钟时,说实话你其实跟什么都没看一样。

  所以大家想象一下,现在屏幕上所显示的一共是10个大屏,每个大屏16宫格,也就是160路视频。北京机场就有几万路视频,也就是说,如果把每一路视频放一分钟把这些视频轮一遍,就需要5万个小时。所以,发生事情能看到吗?

  每时每刻,每一路视频我们都把它存下来,最后我们当证据用。是的,但你想一想,这么多路视频无时不刻都在存,全世界每卖出两块视频,其中有一块就是卖给安防监控视频的。当有这样海量数据的时候,人类如何处理?

  所以大家想象一下,如果我们大家可以把每个摄象头,都换成一个智慧像小机器人一样帮我们盯着,当发生问题的时候就可以第一时间预警。所以,当我们的机器有了视觉的时候,我相信我们大家都能清楚看到,我们的世界会变得更好。

  但是当世界变得更好时,我们人会变成什么样呢?可能你会说人会变得更高、更快、更强,那是奥林匹克精神,其实在我看来,我自己觉得我们人的愿望,其实一开始就跟更高、更快、更强是相反的,我们有时候经常说越是说什么越是代表不具备什么。

  我自己有个观点,我总觉得,人类从一开始所有技术进步的唯一源动力,就是把自己解放出来,或者说的更直白一点,就是让自己会变得更懒。

  今天有很多服务都可以上门,O2O上门美甲、洗车,所有事情都是把人类解放出来。每次重大的技术革命,比如17世纪的蒸汽机革命,19世纪的电力革命,近代的信息革命。工业革命发生以后,机器能开始取代人类做一些简单的体力劳动,我们的四肢被解放出来,去到一个地方不再需要走路去,可以坐车去。

  随着电力革命、信息革命,到今天大脑一部分功能都已经被计算机所替代。比如我们要去做运算的时候,我们大家可以用计算器,电脑、手机也能够在一定程度上帮助我们记忆、存储。

  但是我觉得,这就是为什么我总觉得,人工智能这件事情一定会实现,因为从潜意识里,人一定会不懈的朝着这个方向努力,因为对人来说,最终最难被解放的两个器官,一个是眼睛、一个是大脑。

  也曾经有人问我说,大家可能也都知道,马斯特和霍金都对人工智能发表了很多,人工智能成熟以后是不是有很多人会失业?

  我对这样的一个问题是这么看的。技术变革时,都会迫使我们做更有创造力、更高级的事情。举个例子,比如农民工进城,过去做农活这是个相对来说更简单的体力劳动,而当这样的体力劳动被机械化所替代时,我们的农民工来到城里,他们做了泥瓦匠、水电工、月嫂,他们挣的钱比我们很多人都多。

  而未来人工智能替代人做更多事情时,人会逼迫做更高级的事情。而人能做什么呢?去交流、去分享、去进步、最终去进化。所以人做的所有事情,最终就是想实现一件事情,那就是人工智能,把我们的大脑彻底解放出来,让人自由自在地做有创造性的事。

  今天我们这个论坛的主题叫X论坛,“Vision”这个词的第二条解释是“远见”,也就是在未看见的时候,就能通过想象力看到未来。今天我希望我们大家在一起分享,能跟我一样,看见未来其实就在我们眼前。谢谢!

  半个月前,激光雷达传感器 Luminar 公司与无人驾驶视觉芯片公司 Mobileye 达成协议,为后者的无人驾驶汽车提供激光雷达,帮助 Mobileye 进行下一阶段的无人驾驶汽车开发和测试。不过,Mobileye 似乎并不想跟 Luminar 分一杯羹。近日,Mobileye CEO 表示将自研 FMCW Lidar 用于内置传感器,来降低无人驾驶的成本。 1. 被误读的合作协议 上个月 23 日,无人驾驶传感器初创公司 Luminar 信誓旦旦地宣布,已与英特尔旗下的无人驾驶芯片公司 Mobileye 达成协议,将为后者的无人驾驶汽车提供激光雷达,一时间默默奋斗 5 年的公司似乎拿到了一份未来的保障,要知道 M

  成本 /

  前阵子,一位同传翻译员声讨科大讯飞“AI同传造假”,在网上引起了轩然。AI和同传翻译由此成为大家热议的话题。今天,我们来谈一谈“人工智能翻译是不是真的可以取代同传翻译员”? 同声传译有多难? 同声传译最早出现在一战后的巴黎和会上,英法两国代表借助同声传译人员的帮助,完成了紧张的谈判。 如今,该技术依然在国际会议上扮演着非常非常重要的角色。据统计,95%的国际会议都有专业同声传译人员助力。 同传翻译员在台上能够将同传能力运用自如,需要平时大量的艰苦练习,即使是双语运用自如的专业技术人员,在实战之前,也要进行数年的锻炼。他们不仅需要事先学习、熟悉会议资料,还需要随机应变的能力。同声传译的工作方式也比较特殊,因为压力巨大,一般多人协

  机器视觉长期以来用于工业自动化系统中,以通过取代传统上的人工检查来提高生产质量和产量。从拾取和放置、对象跟踪到计量、缺陷检验测试等应用,利用视觉数据能够最终靠提供简单的通过失败信息或闭环控制回路,来提高总系统的性能。 视觉的使用并不仅仅在工业自动化领域;我们也看到了相机在日常生活中的大量应用,例如用于计算机、移动电子设备,特别是在汽车中。摄像头仅仅是在几年前才被引入到汽车中,但是现在汽车中已经配备了大量摄像头,以为驾驶员提供完整的360°车辆视图。 但是谈到机器视觉领域的最大技术进步,可能一直是解决能力。随着CPU性能每两年翻一番,以及对多核CPU、GPU和FPGA等并行处理技术的持续关注,视觉系统模块设计人员现在可以将高度复杂的算法

  在工业自动化中的应用 /

  第一电动消息 9月19日,宝马集团在北京“宝马未来出行规划媒体沟通会”上公布消息称,宝马将于2023年底-2004年初推出L3级高度无人驾驶,宝马7系将会配备L3级无人驾驶技术。宝马公关团队向媒体详细的介绍了宝马无人驾驶研发的历程以及最新进展,披露了很多关于L3级无人驾驶的有关技术细节。 据宝马公关团队介绍,自2000年在BMW7系上搭载首个主动巡航控制管理系统至今,是宝马在自动驾驶领域的研究已超越20年。目前,L3级高度无人驾驶已经涵盖全交通场景,在各种路况场景下都能够轻松的享受到无人驾驶带来的乐趣和便利。 据宝马官方介绍,早在2018年,宝马就推出了时速低于60公里以下拥堵道路上的脱手驾驶模式,大大缓解了拥堵路况下的驾驶劳累。经

  技术细节,眼神确认自动变道 /

  人工智能(AI)是2018年安博会的核心话题,其中人脸识别有关产品和方案仍然是本届安博会AI在安防监控应用领域展示量最大的部分。当前视频监控已走向人脸识别、车辆识别的应用阶段,大家都在关注识别算法精准度的提升,而如何提升这个精准度,撇开算法的层面,从设备硬件构造来讲,第一步是要保障的是监控 图像传感器 的性能。 本次安博会,笔者也有幸采访到了国内专注于图像 传感器技术 和产品研发的企业思特威(SmartSens)人工智能事业部总经理白震东先生,在访谈过程中,白震东详细分析了当前国产图像 传感器 的创新技术亮点和应用现状,让我们对这个安防视频监控摄像头内部的核心元器件有了多一层的认知和了解。 人脸识别应用对图像传感器提出更高要求

  时代线月,全国首个“法律 机器人 ”在昆明亮相,仅用3分钟,“ 法律机器人 ”就能免费为市民提供一份详尽的法律咨询意见和法律分析报告,这一凝聚千万案例和律师经验的智能平台受到社会普遍关注。一年来,“法律机器人”干得怎么样,有没有变得更智能强大,是否让公共法律服务更加亲民、便民、高效?   “法律机器人” 引爆智慧司法 去年,全国首个“法律机器人”在昆明面世。该平台由昆明市司法局与北京律品汇科技有限公司共同研发,西山区、五华区、官渡区作为首批试点,“法律机器人”进入试点地区的司法局和政务服务大厅,正式上岗值守。   记者在位于昆明市公共法律服务中心大厅的一台“法律机器人”终端机上看到,进入咨询页面,婚姻、借贷纠纷、劳动纠纷、继承、

  牛年开工伊始,上海汽车集团股份有限公司乘用车公司(以下简称“上汽乘用车”)宣布,已于2月10日与智能芯片独角兽企业地平线(Horizon Robotics)达成全面战略合作,双方将依托各自在汽车、AI领域的核心优势,共同探索汽车智能化平线未来的高等级无人驾驶芯片成立联合团队,共同打造对标特斯拉FSD的下一代智驾域控制器和系统方案。 在AI与信息通信技术最新成果的推动下,全前沿技术,研发具有上汽集团品牌特色的智能化、网联化汽车产品,引领汽车智能化发展的趋势。未来,双方拟以智能域控制器和无人驾驶系统为切入点继续深化合作,并围绕地球汽车行业正全面向电动化、智能网联化的方向变革。在上汽集团“新四化”战略的指引下,上汽乘用车已成

  独角兽地平线,上汽集团已大举进军芯片产业 /

  英特尔宣布全新制程技术路线图、客户及生态伙伴合作,以实现2030年成为全世界第二大代工厂的目标。 英特尔首推面向AI时代的系统级代工——英特尔代工(Intel Foundry),在技术、韧性和可持续性方面均处于领头羊。 英特尔代工宣布最新制程路线A制程技术、专业节点的演化版本,及全新的英特尔代工先进系统封装及测试(Intel Foundry Advanced System Assembly and Test)能力,以助力客户在AI领域取得成功。 英特尔代工宣布新的客户:微软首席执行官Satya Nadella表示,微软设计的一款芯片计划采用Intel 18A制程节点生产。 Synopsys、C

  时代的系统级代工 /

  (蔡红霞, 周传宏)

  伦理 (于江生)

  【瓜分2500元红包】 票选DigiKey\智造万物,快乐不停\创意大赛人气作品TOP3!

  有奖征文:邀一线汽车VCU/MCU开发工程师,分享开发经验、难题、成长之路等

  该产品线提供了并行SRAM的低成本替代方案,容量高达 4 Mb,具有143 MHz SPI SQI™通信功能为实现用户对更大更快的 SRAM 的普遍需求, ...

  第五代至强可扩展处理器的最新MLPerf测试结果充分展示了英特尔及其生态合作伙伴在提升生成式AI性能方面的成果。...

  嵌入式硬件专家 SolidRun 宣布发布围绕 Hailo-15 神经处理单元 (NPU) 构建的模块系统 (SOM),每秒可实现高达 20 TOPS算力,以支持 ...

  AMD携手OEM合作伙伴联想和华硕,以及ECO合作伙伴百川智能、有道、游戏加加、生数科技、始智AI等共庆AI PC腾飞之年,展示了Ryzen AI PCECO的强大实力...

  台灯是我们很常用的一种照明用品,传统的台灯都是手动控制的,通过手动按按键去进行操控台灯,而如今,科学技术水平不断地提升,人们的生活水 ...

  嵌入式处理器嵌入式操作系统开发相关FPGA/DSP总线与接口数据处理消费电子工业电子汽车电子其他技术存储技术综合资讯论坛电子百科



上一篇:行业词典——机器视觉(Machine Vision) 下一篇:智能眼镜有何异乎寻常