@ fnii.cn

登录邮箱

倪明选 大数据如何改变世界:从斯诺登事件谈起

发表日期:2014年05月17日      共浏览 1950 次      编辑:


谢谢,我不敢当男神也不敢当女神。很高兴来创新研究院,我说我好久没有做未来网络,在香港没有条件做未来网络,不像国内这么发达。我想跟各位分享一下我最近几年做一些东西跟大数据有关的,选世界都是在谈大数据。

先从这个人谈起,这是去年5月香港来了一个不速之客斯诺登,香港政府不知道怎么办好。最后普京把他接收了。斯诺登主要是在香港讲出美国国安局棱镜计划,大数据我们也喊了很久,可是我们科学家做的东西,斯诺登来了以后,我想最大影响就是让所有的领导、老百姓做生意的人都发现大数据确实太恐怖了。这里面为什么大数据有这么大的影响力,为什么说是改变世界的,这是蝙蝠侠里面的图,这个电影就是叫科技,电影讲我要找人,这张图,无处不在。今天我要找你,很快,某个摄象头把你抓出来,知道你在什么地方,就像我们这个大海捞针一样。斯诺登事件美国国安局到底做什么呢,他说我们要抓恐怖分子,为了国家安全你们的隐私牺牲一下吧。到底怎么来找恐怖分子,我才发现,谷歌、雅虎、微软都是搜集的对象,他从里面来找可能的恐怖分子。我讲斯诺登事件受打击最大就是这些软件公司,现在我们华为到美国去给到合约,他们不敢接了。这里面一个问题,原来我们的数据是没有隐私的,他搜集所有的数据可以找出来恐怖分子,这是我常常讲的一举七,你为什么要谷歌,谷歌对你的了解比你了解的还清楚,对不对?谷歌服务太好了,从Gmail开始,你要找的东西,最近这些东西全部出来了,大家都去用,谷歌有不断的创新,要备份通信录,谷歌什么都有。而且最伟大的不要钱,我们都相信免费午餐,真的有免费午餐吗?谷歌到底怎么赚钱,我想这是很清楚一件事是,谷歌其实目的就是赚钱。他搜集你所有的数据,分析你的行为,知道我怎么样针对性广告成功率比较大。广告是最大的市场,这是谷歌在做的,除了广告以外,美国政府也发现。谷歌在做备份的时候,他都不知道当时要怎么用,摆了很久以后发现有用了,这些都是情报。大数据,什么叫大数据,我们希望从数据里面找出insight,我们希望在IT里面从数据收集到我们做到找出我们想要的东西,这才是大数据做的东西。大数据可以做到我们做不到的事情,除了谷歌广告,还有美国的棱镜计划,去年诺贝尔物理奖也是因为大数据的技术支持的,语音识别都是因为用大数据技术,过去做不到的现在做到了。

里面有三个,什么是创意,解决什么问题,需要什么样的技术。在2004年我开始做973首席,还有无线传感网络,那个时候非常红。收集各种各样数据,当时我就发现问题,我拿这么多数据,解决什么问题?后期开始,我跟学生讲我们来做数据吧,数据收集来做什么东西。当时呢,我们拿第一份数据,我们有上海科委所有的士数据,上海科委9000部的士数据,每30秒和1分钟,经过GPS我这个车子在什么地方有没有载人,速度多少全部上传。这么多数据,很有意思,我计算器做了35年,平均5年换一个方向,我说我要换这个方向,学生想老师假如你被枪毙了在数据库里面还没有人知道,当时我招了第一个学生做这个东西。所有的士数据到底能够解决什么问题,我拿一个框,到底里面是什么,你怎么去挖矿。我们做第一个论文,就是上海交通在上海,每一点是一个历史位置,黑点是有载人,红点是空车,的士是一个偏向性数据,不是所有的士。大体占了所有上海车子0.3%,黄浦江上没有车子,当时我们做第一篇文章,我有这么多数据,能不能找出上海的乐区,像这边人多的地方,车子多的地方,那个地方放了广告就效应比较大,或者是不是堵车了。我们做的第一个文章,怎么利用这个数据可以找出上海某些乐区,这边是立交,这边是金山寺,这边是上海酒吧街,这个地方并不是说车子多就是乐区,这是我的学生在2010年第一篇文章,这个学生跟我毕业就写了这一篇文章。我的学生一看一篇文章可以到,我们都来做大数据吧,后来做了很多,从这个历史数据里面,我们挖了什么东西,这是挖了第一个金子。第二篇文章,我怎么找出任何两点最强的互补。司机很聪明,塞车路段他不会走,找出来他最常走的路,这个东西其实很多人可以做,我们做了之后很多城市规划,比如说我不认识他的话,梁振英当时给香港政府做演讲,你做城市规划从A到B做一个高速公路我才发现,高速公路并不是大家常走的路,大家还是走上面比较慢的路,为什么人家不走高速呢?是不是设计有问题,可以发现,因为路口跟出口特别塞,大家看塞就不走了。目前从深圳到广州沿江高速同样的问题,高速不多,广深高速都是塞车,都是出口设计的不好,所以这是解决城市规划问题,这篇文章也是在去年发表的。数据本身是有误差的,怎么修正数据误差,我可以成千上万的数据,不可能全部修正,这是我们修正误差的方法。这个东西是帮我赚到钱的,他们要做这个东西,拿到所有的数据怎么做修正,这是另外一个东西,这个更有意思。这做什么呢?就是说我想知道从A到B花了多少时间,GPS可以告诉你,最短路程可以告诉你,我有过去这么多数据,我来分析哪个路段,可能在不同时期可能走的时间,事实上这个东西应用是非常深远的,我讲一个故事吧。华盛顿大学有一个教授,在美国买飞机票,不同时间飞机票价钱是不一样的,他买的飞机票从西雅图到纽约很高兴,一上了飞机发现有的人比他买的便宜,比他还晚买,更不爽,别人可能就算了。这个人是个教授,他就说可以做研究,他就搜集所有的从西雅图到纽约,分析所有的东西,AI做研究,他开发一个系统,做什么呢?从任何地方到任何地方我要买机票,他会告诉你什么时候跟谁买你可能最便宜,所以他把这个软件开发出来,平均便宜50块美金,这个团队不到10个人,结果想创业开公司,微软说你不要开了,我把你买来算了,1.1亿美金就把这个技术了。为了打败雅虎,谷歌做的最好,唯一能够做好,我做社区的时候,给我的不是一大堆可能的东西慢慢去点,我要从A到B买机票大概什么时候,我回来就是我要的答案,做的最好,他就买这个技术。事实上我们做的方法跟这个类似一样,我从A到B就是这个意思。这边是去年全国AI的数据,当时我很高兴,我做这么多年,我最痛恨就是AI,我们总算在AI发表第一流的文章。

再回来应用,再讲几个应用,跟我们无线有关的。当时独居老人跌倒的问题,我母亲85岁,有帕金森病,我最怕她,老人总认为你不要扶我,但是几种方法,做传感网的,你跌倒的时候三维传感器,这个人跌倒,我妈妈拒绝戴,她痛恨死了,搞高科技身上戴这个东西我不可能戴,我不会跌倒的,我后来装一个摄象头,我上厕所你也要照我像吧,我们用最便宜的AT,我们怎么做呢?信号受人的干扰,问题是我也相信信号的变化可能会找出人的行为,你是走路、坐下、跌倒或者是不站会影响无线信号的变化,我们相信有这种行为的。我们收集了很多信号,我希望从人的不同行为,我们搜集了很多的学校,学生每天走来走去一大堆信号,我们先做一个,数据挖掘最难是找特征,就是想这里面什么样特征跟这个有关,是不是信号的最大值最小值平均值等等。因为我的学生三分之二做大数据,三分之一,他们做了半天准确的走到72,当时我想说还不能确定。当时大数据说他说我找不出特征,那我们就用机械的方法找出特征,把准确率提高到92,这个东西拿到今年香港ICT大奖,科技创新奖。

你们到广州去小蛮腰,你可以扫一个二维码我为你导航,整个广州市,这个大楼干什么的,那个公园干什么的,你把我们的AT打开,你一点文件说这是以前的黄埔军校,这是以前的市政府大楼,我们做认知。这是认知技术数据的一种。这是我们另外做的一种综合体,这是广州最大的镇家广场,六层楼,乱七八糟里面,700多家商店。我们想知道帮助客户解决一个问题,停车的问题,每次你们停车停哪里,停车没什么问题吧,我帮你解决很多问题。你到镇家,我做定位,我给你算在哪里,你今天要去找餐馆,这边五家餐馆,这家怎么带你走过去,你跟你的爱人,爱人去买衣服,我去买电器找不到怎么办,爱人在哪里我看一下就知道我去找她。你可以做到跟谷歌一样,针对性的广告,我们有做记录,你在哪一家店铺停留多久我们都有记录,你还没到店铺马上就出来了,欢迎,你想要什么东西,这是我们正在帮他做的东西。这是帮国内某一个汽车保险公司做的,保险公司最怕就是到底这个车况是真的假的,最有名的方法是用SPA是国外一种东西,他找我,他给我们所有的数据,客户数据,车子数据,我们帮他做分析,基本上我说你不可能,我帮你算出来,你找前面10个就对了,前面10个八成就是有问题的,帮我赚了不少钱,我们确实帮他省了很多钱。

做这个东西做五六年,大数据已经定下来了,很多创新在这里面,要讲一个问题,数据中心,我还记得大前年我在台湾,谷歌在台湾成立数据中心,我第一个反应台湾怎么这么笨,数据中心台湾有什么好处我不知道。谷歌香港数据中心就在科大旁边,将军澳,我就说有没有搞错,谷歌科技中心为什么放在香港,这个数据谷歌会不会给你看,当然不给你看,他说自由国家隐私权不能看,谷歌为什么不放大陆,工信部很聪明,当然不能放大陆,你就是间谍,很多国家不懂。台湾还在做,这是我要讲的,事实上数据最主要的,这是未来的一个新的方向,数据中心就是一个政府建高速公路,这是一个国家必须提供的基本的。他必须提供我们有纯数据,除了政府的数据能够帮老百姓推之外,还有中小数据怎么办?学生要读书,以前计算机系主任,只要我出去忽悠,学生都来读计算机。现在美国最不景气的时候,最好的工作就是IT,IT里面最好的工作数据分析,工业界起薪20万美金,学校都在招老师,我们来不及招,科大要招五个老师都找不到。这是一个新的,事实上我们讲,一个国家在高速公路,或者核弹要多少,是内部数据中心,这还没什么了不起,数据分析能力,这是国家核心的竞争力,美国绝对是遥遥领先,中国总算没有落后。

我在计算机专业30多年,每个领域大概花个半年,叫学生看了之后讲给我们听,我们做晶片设计,再做网络,然后开始做无线网络,半年就进来了,我做了这儿多年是最难进去的网络。因为这个东西他的感觉并不是说一个,这是一个改变世界,改变我们社会的生活方式的科技。第一个,你能够存,我记得我上个月王娟他们到我那边去,他们做阿里巴巴的,每个他们都存下来,他们当初都不知道,存了再说,不知道什么用,可是不存就没有了,现在价值全部体现出来了。数据没什么,能不能在数据上找出价值,这才是本领,这是你怎么去看这个东西,有很多隐藏性的价值,这是你的内容。

这里面有两大最有意思的东西,70年底,80年初最厉害的就是VI,但是毕业都找不到事做,残害了一些聪明的美国年轻。当时我想这不是一个不该做的东西,但是这些领域现在是非常厉害。这是一个新的观念。我们的算法都可以跑出来的,这里面一个深度学习,我想你们都学过,什么叫深度学习我很快讲一下。神经网络,这是很早以前突然红了一阵,然后就销声匿迹了,神经网络20年前解决一个最大的问题,手写认知,突破了。但手写认知怎么写,神经网络最大就是要解决这个问题,以后呢,找出更多应用,基本就是干别的东西去了。事实上神经网络认知了解的话,中间有很多神经元进来,手写的每一点到神经元里面,手写什么字,大概是哪个字都可以出来的。事实上这里面,在理论上呢,当你神经元够多,我选择,我足够大的做圈引,神经元够多的话,什么都可以做。事实上做不到,我不可能有无限多的,几十亿,上千亿,百亿的神经元,这都是医学。

深度学习是这几年最红的,他把一层变成很多层,变成很多层以后,神经元速度减少,减少了。可是他圈里更难做了,就是说你做错以后改他控制是更难做了。后来神经元垮的时候,都被枪毙掉了。前年出了一篇文章,解决图像认知的问题,从认知从75一下跳到85,我们全部来读他的文章,你去他的网站第一句话,你要跟我读博士,我不收学生的。百度立马把他挖过去,好啊,我跟百度做,后来大家都来找他,他在会议的时候,我们大家来谈,两个小时,谁出的价钱好我就跟谁做,雅虎、微软、谷歌、百度都跟他谈了,他说时间不多你们开钱吧,一百万到四百万,最后四百万就谷歌和百度了,后来他们都叫价到五百万,后来他说大陆太远了,我就在谷歌吧,谷歌专门为他成立了一个实验室。深度学习是深层的神经网络,加上自我学习的能力,就是我要先学,再跟他讲该怎么改。它的神经元不是说百万、千万、上亿,十亿以上,这么多神经元,这里面很多问题,工程问题,如何保证算法实现正确性。计算量巨大。艺术设置多少层,每层使用多少个神经元,怎么调整参数。

另外一个阿里巴巴,阿里巴巴做了一个天猫网,阿里巴巴拿出来,他想做客户行为分析,做针对性广告,阿里巴巴他做行为分析,基本上跟天猫推荐和精准度提升,他们利用机器学习方法,基本上已经把精准度提高了80%,他并不满足。所以阿里巴巴他拿出一千个个户,这些客户把1—8月所有的行为告诉你,这些客户在天猫看了什么东西,买了什么东西,全部数据都有,大家看4—8月进行比赛,有一个方法,把第9个月数据你来猜,你认为9月份买什么东西,凡是9月份我有数据,对照一下,做这个东西用9月份来对照,很多人参加,做客户行为分析的模型并不是很高深,协同过滤,我这边是几百万的用户,这边可能是几十万,什么时候买了A,什么时候买了B,什么时候看了C没买,我是几岁男生女生,所有东西都做记录。他要做什么叫协同过滤,刘院士,你跟哪一个人行为很像,刘院士跟王院士一样,年纪行为都差不多,所以王院士最近买的这本书你应该也会买,就这个意思。可是怎么去定义我们俩的故事,这么多里面,买A买B买C位置应该怎么算,男生女生影响有多大,我的年纪影响有多大,这都是参数。模型不是秘密,但如何量化用户的行为,如何定义用户的相似度,如何调整模型参数,如何合理组合不同的模型。需要丰富的实践经验甚至直觉,这也不是科学,也是艺术。是科学的话问题解决了。当时大概有六千多位参加,第一季结束选500名进入第二轮,第一名就是我的学生,实战看看你的本领多大,现在进入第二赛季,我们决定不参加了。阿里巴巴他放一百万,我们把我的想法告诉他,我这一百万太便宜,觉得划不来。他还用他的方法来做,我们玩第一把就不玩了。

最后事实上整个大数据里面,并不是像过去的一个基础上找对象。SKN也是,大数据尤其你在做大量机器学习,我需要的计算量太大了,我们现在用的是天河二号,东方科大跟我们合作,当时天河二号是为了高性能计算,做了很多年。他说天河二号应该怎么改,做大数据计算解决问题。最后一页,我想这就是,这里面一个问题,就是隐私的问题,各位大家有没有注意到,美国白宫出一个东西,奥巴马总统请他的科技部主任写了一个报告,能源部部长都在里面,隐私权大家都想到这个问题,怎么办?无所不在,现在一件事是不是愿意他的位置拿出来,这个要不要,都愿意给他了,隐私权怎么保护。新的科技并不是说因为有了科技我就不做,没有选择,你怎么去解决这个问题。而且科技往前走的,我们不玩了,我们今天把网络关掉怎么办,大家都过不下去了,你不做别人也不做。主要说新的政策必须找出一些方法,怎么去更合理的保护人的隐私等等,我想是需要跟进的。历史告诉我们,跟不上时代的人就会被淘汰。柯达,听过这个故事吧?1991年柯达技术领先任何公司至少10年,今天已经破产了。移动互联网出来,我们讲BAT嘛,现在讲什么?腾讯在过年把马云同志吓坏了,马云说我也卖红包,为什么马化腾的红包这么红花啊,因为手机是物联网一部分,就有这个好处马上卖了,汽车也是物联网一部分,大家都已经知道了,世界在改变,你跟不上的技术立刻就被淘汰。

我个人最近五六年做大数据的感想,也出了文章,也赚了钱,个人感想是这样子,我以前科研碰到,能不能给点经费,给点钱,做大数据都是人家送钱给我,听了我演讲以后,说倪教授帮我解决问题吧,帮他省了很多钱。解决不同斗面的问题,都可能是你成功创新的机会。谢谢,这不是我的功劳,都是很多聪明的学生帮我做出来的,谢谢大家!