@ fnii.cn

登录邮箱

尹浩:利用大数据思想优化中国互联网的未来

发表日期:2014年06月16日      共浏览 1550 次      编辑:

谢谢各位,谢谢主持人!今天我是大家午餐前最后一个演讲,希望不要倒大家的胃口。我今天想给大家分享一下利用大数据思想优化中国互联网的未来,我想汇报三个方面,第一是互联网发展趋势及挑战,第二,大数据带给我们的解决之道,其次再汇报一下我们做的事情。

第一件事情我们从外面来看,市值来看,刚才移动研究院的也谈到了,我们看到网络经济的飞速发展,但是我们网络承载者运营商和网络主要设备提供的思科,他们近五年来的市值刚刚赶上CPI。网络应用这一块,谷歌、百度、腾讯他们的市值在飞速发展,我们看到网络经济蓬勃发展,有人喜欢有人忧。我们从内部来看,这是2010年做的一次测量,教科书上告诉我们,网络体系结构应该是这个,一类运营商和二类运营商是一个层次化的结构,2010年的时候已经是一个网状结构,扁平化的过程中,主要的推手就是大的内容提供商,以及大的CDN运营商,而且他们对流量已经起到很重要的位置。谷歌在做一个fiber的计划,想做千兆接入,有一天我们发现所有的wifi都免费了。从内部来可以看到,事实上内容提供商和主要网络服务提供商,他们不满足于运营商提供的服务要求,要么在建覆盖网,要么自建网络,已经形成了一种跟运营商很激烈的一种竞争的态势。第三个,我们从政策的层面来看,这是上个月刚刚有刘原始也提到了,网络中立,这是一个立了很多年的法,现在由运营商提起来,希望能够有额外的收费,这事实上也可以看出,是运营商试图为自己争取更多的生存的空间。从外面看、里面看和政策看,这三个看之后,我觉得我们可以总结一下。网络的应用在不断追求个性化的需求,同时在主动的选择或者自己在建设网络,从网络服务者角度来说,我们不论是云计算还是SDN技术,在不断的使得它能够灵活和按序为应用提供服务,希望通过网络中立的改变,最大化自己的收益,扩大自己的生存空间。但是在应用选择网络,网络服务应用的过程中,却有一个瓶颈。应用在选择网络过程中,看不清楚网络,基础设施对他来说是一个黑匣子,资源不可控。网络服务应用来说,看到的应用也是一个黑匣子,因为他看到的只有数据包,利用大数据思想作为科学和工程研究一个基本方式,推动应用和网络之间的融合,并且推动这种融合的效率最大化。

下面我汇报一下我们体会的可以用大数据思想给予的解决之道,首先我们类比一下市场经济,市场经济主要有两个很核心的理论,第一个叫Social Choice,他在谈充分考虑每个个体偏好的情况下,我们构建一个公平公正公开的竞争环境,让每一个实体按照自己的偏好去追求利益最大化会达到整个社会福利和集体资源优化的最好的效果。另外一个就是信息对称,市场经济中如果说信息不对称,会带来交易的偏离失败,直至使得这个看不见的手发挥不了作用。类比今天我们说在网络体系里面很重要的一点,是不是可以引入充分的竞争机制,通过市场机制优化网络资源的分配,就像我们今天看到内容提供商也可以提供运营商提供的服务了。同时在引入竞争机制过程中最核心的东西是要使得应用和网络具备双向选择的能力,网络可编程,应用可以按照自己的需求定制个性化的服务。所以刚才Prof.Scott Shenker已经提到了网络细腰,刘院士提到了服务的定制化,这都是双向选择的结果。最后要使得双向的选择能够最大化的资源效率,要构建对等的信息,要打破信息不对等。这样子的话,我们就可以构建这样一个良性的循环,我们可以主动选择服务,在服务过程中根据测量感知到的服务的体验和好坏,用钱来投票我应该支持谁,谁得到支持之后,得到更良性的循环。在这样的思想下我们提出了一个数据驱动网络的架构,这是我们和刘院士一起提出来的,我们称之为4P,我们觉得SDN的技术应该是把数据和控制进行了分离。但是它恰恰需要有一个信息平面来构建网络应用和网络融合的效率最大化。在SDN里面,我觉得更多的体现在我们信息平面里面,网络和IT为中心的信息获取。在市场信息获取更多的体现我们在用户和服务的获取。这两块信息用大数据驱动的方式,可能可以变成更多有用的知识,最终使得整个网络生态来到一个,就像市场经济一样的健康良性和高效的循环。这样的一个体系结构,我们认为它有三个好处,第一个好处它带来了计算的智能。这是一个具体的,在网络里面大数据驱动的视频性能优化,这个主要的工作应该是我的一个好朋友做的。他们通过计算和数据挖掘的方法,重新定义了对用户服务体验的参数Q1,同时又获取整个互联网完整的信息CDN的终端用户的,以及内容提供商对商业的需求,以及中间计算的方式来将算法和复杂协议进行解耦,使得我们达到的预期效果,一个什么样预期效果呢,一方面呢我们用户体验好码率比较好,这样一个多目标优化成为现实,并且能够使得资源利用小序的最大化,所有的事情就是通过多个,把所有这些因素放在一起,通过计算来实现。我们认为计算带来的一种效率,带来了一种智能。这一次刚才提到了我们会议现场也做了视频的直播。我们在这一次也用到了类似的技术。大家看到的屏幕是我们今天视频直播的服务效果图。每一个小圆圈代表是这个区域看的用户的人数,圈越大代表人数越多。大家可以看到,今天视频直播有技术设施的支持,也有我们研究院CDN的支持,目前用户总共是17890人,大家服务质量是非常好的。这个技术从某种意义上来说,用大数据驱动来做相应服务质量的优化是可以起到很好的效果的。

第二个,我想谈一下数据的智能。对于运营商来说,有很多内部的数据,这些内部的数据可以知道你是谁,你每个月干了什么事情,你的通话特征上网特征等等。但是我们强调在大数据时代,我们希望完整的数据,如果我们有完整数据时候会产生什么效果呢?假设我们这个时候再加入内部不知道的外部数据,比如说设备属性,兴趣偏好,这就相当于把一个人的,我想内部数据是人的半张脸,外部数据是人的另外半张脸,合在一起的时候我们就可以对客户进行完整的客户画像。我们在08年奥运会的时候,当时因为我正好在担任首席科学家的时候,服务了奥运会的视频点播和直播,我们也做了一些优化,分享一下我们当时的一些心得。当时视频内容主要是两家来做,一家是CCTV,一个是腾讯,腾讯大家都知道是社交网络,CCTV是一个官方媒体。我们通过数据挖掘发现很多有趣的现象。第一个有客户端社交媒体,它能对于内容的拉动的效果会很快。当一个热点出来,到达访问巅峰的时候,社交媒体速度会比传统的媒体要快很多。另外一个,它不仅拉动的速度快,而且它拉动的流量还很大,流量偏移非常大。还有一个很有趣的现象,当时CCTV,他们是在所有的赛事前面加了视频的广告,而腾讯是没有加广告的。我们通过事后数据挖掘,我们明确的看到,其实腾讯没有加广告是亏了的。因为在这一热点视频来说,用户是可以容忍这样广告的存在的。所以这事实上就是说数据可以带动我们很多的智能。

最后一个是谈效率,大家都知道我们从用大数据思想解决网络问题的时候,强调它的相关性,而不谈因果性。华尔街分析师通常会写两个报告,一个说明天股市涨,一个是说明天股市跌,当涨的时候把涨的报告拿出来,当跌的时候把跌的报告拿出来。我们想为一个结果遭到原因很容易,但是不不是真正这个原因导致这个结果呢,说不清楚。因为在一个复杂系统里面,一个音在前一秒钟是主音,后一秒就是辅音了。我们近期做了一个例子,服务资源的部署问题,通常意义上所有人喜欢把它编译成数学模型,互联网上两个目标以上的优化问题,通常意义上就是一个,多长时间内你是没法求解的,我们用大数据思想就可以变成为网络聚类的问题,可以在快速时间内达到多目标的优化,同时我们给出来的不是一个像确定模型里面得到一个确定解某一个点,而是通过这种数据,通过这种数列的方式可以给到一个相关的曲线,比传统的方法既可以降低成本,还可以提高用户体验。所以我们谈到用数据驱动很多方式,可以解决在复杂网络里面资源管理和任务调度的一些算法效率低下的问题。

最后我想谈一下在大数据驱动下未来网络研究,也就是研究院想做的一些事情,用这一张图来说,我们想做四件事,第一件事,我们认真思考数据驱动网络本身的问题,第二件事是怎么构建这个信息平面,一个是数据的获取,一个是数据的管理,一个是数据的应用。数据获取里面两种方法,一个是主动,一个是被动,主动有优势,范围可以覆盖面广,可以理解网络整体端到端行为,但是他有很多缺点,到今天为止用这样的方法很难构建很准确的TOP,以及IP和地理位置之间的映射关系,被动的好处是精确,而且不影响网络系统,但是它的弱点也很明显,只能够获得局部的数据,而且需要多个点之间的协同工作,才能够构建一个全面的。在数据获取这一块,我们怎么一方面提高准确和完整性,一方面降低代价和对互联网的影响,从而达到一种目标最大化,数据的经济密度。我们获取数据是有成本的,应用数据是要获得经济效益,怎么最大化数据经济密度。今天我们进行数据挖掘的时候我们有不同的模式,我们看到最著名的就是,也有流失的,还有图结构的数据处理平台,还有交互查询的。我们拿到一个数据进行处理过程中,可能我们在不同系统里面进行用不同的平台进行支撑,导致效率比较低,速度比较慢,大家很重要的方向就是希望对一个平台提供,对不同的计算模型提供统一的编程接口。数据应用不缺乏网络的基础,也不缺乏工程的保障,如何保障正确性,如何在几千台机器一起计算,但是缺乏在应用过程中如何根据应用具体需要,设置特定的一些参数,设置学习的参数。数据应用的效果不是取决于科学,也不是取决于工程,而是取决于应用的艺术。我今天的汇报到这儿,谢谢各位!