@ fnii.cn

登录邮箱

方滨兴 网络空间大搜索技术

发表日期:2015年12月29日      共浏览 754 次      编辑:

大家好,我今天报告的题目是网络空间大搜索。我们说我们现在的大数据到来是获得了很多新的数据来源机会,我们现在不仅仅是从互联网获得信息,我们还可以从物联网获得信息,从社交网络、移动网络、地理信息,收取数据的源头发生了巨大的变化,我们现在讨论网络空间,是可以处理交换数字信息与人互动的虚拟空间。有三个要点,一个是它是数据加工处理的要点,第二个是与人互动,第三个是虚拟空间。展开说是它包括互联网、电信网、广电网、控制系统等等,网络通讯信息系统。并且还要以这些信息系统为平台进行信息技术活动的空间,这些空间展开我们说到未来网纳入到空间之中,刚刚李院士也提到谷歌高层提到了将来是要由互联网先往,物联网取代互联网,这里面可能有一点偏差。实际上我们现在把网络空间称为泛代网(音)。我们搜索内容一个是存在性搜索。这个信息是不是在网站中,我们现在关注的不仅仅是信息本身,这个信息还包括时间,包括了地理空间,比如说地图的搜索。而且信息本身还包括了人、物体和我们的内容。这样我们的信息也在扩张,所以它往两个三维扩张,一个信息是人、物体、内容本身,还有一个人、信息、空间/时间。传统的是简单找一个词存在不存在,然后发展找一个语意理解,再往上是服务搜索,比如说北京时间或者天气预报,比如说北京限号,这实际上是一种服务。再往上我们就追求的是解答,比如说我想到哪个医院看急诊,首先从距离给你找附近的医院,还要看交通情况,找到这个还不够,还要看服务情况,也许这个医院人满为患,你到某一个医院可能距离较远但是可以马上看,我们叫做智慧解决方案,这个就发生了变化。这样的话我们要互换新一代的技术。也就是说搜索要在大的泛在网空间,我们要从它当中获取信息。所以我们说网络空间大数据要向新的发展,这个发展就是要对时间、空间和信息以及人、物和内容本身去获得,最后我们获得智慧的解决方案。换句话说我们的目标不是向网络要信息,而是向网络要解决方案。这样的话我给一个基本观念,它的是在泛在网过程中给予用户满足程度的智慧解答。我们的搜索引擎有海量的空间,还有人的需求,需求之间是有鸿沟的,我们怎么把鸿沟搭桥梁?这边需要理解好你可能想干什么,我需要有一个意图的理解,那边我需要把杂乱的数据做一个组织,有大量的解决方案,对你的理解方案匹配起来最后给你一个解决分按,这个是大搜索面对的宏观的问题。这样我们就可以看成这几个部分。

首先在泛在网里面获取信息,获取当然需要有各种方面的能力,包括互联网、传感网获取信息。第二个我们要准确理解你要干什么,就有情景感知,第三那些信息要有有效组织,现在专家系统还是可以不受时间限制,我们说现在网上说了很多事,推一下今天有什么热点,它可以慢慢算,但是搜索引擎不能慢慢算,一定是秒级响应,我们传统的搜索引擎也不是现算,都是把东西拿下来然后快速索引,这个也是一样,我需要把所有知识构造起来,怎么构造?就是一个关键问题,我们说知识库构建的问题。最后我们还是要给解决方案。哪个解决方案符合你的需求,这里面有上亿的方案,这里面精确匹配而且对它有一个核心判断。当然有这些还不够,大数据对隐私发现的能力会非常强,我们要对这个能力做一个安全保护,核心是隐私保护。这样的话我们把它总结,它是有5个S,大数据5个V数据巨大产生数据快,类型复杂不确定,再加上潜在价值,实际上大搜索也是有一定对应的5个S,首先是大在一个大空间搜索,然后要把信息综合,第四要给出的是智慧解决方案,第五是要有安全保障。

泛网获取支持定向信息获取,当然了这些信息和传统不一样,因为信息量太大,传统信息量相对简单,我们就把它倒排过来,我们先想到我们大数据可能是提供上千亿个答案,我们想想搜索引擎也是一样,我们可能关注上千亿的关键词,现在将来也同样,可能我准备上千个答案,就去搜索信息,这样的话对一个答案来说就很小了,这个大搜索空间搜索的信息就一定是重点放在有目的获取,然后以便你事后的组织。感知也一样,传统的感知你给我什么词,当然现在发生变化,我们可以感知你的位置信息和历史查询信息,将来是在语义上感知,比如说现在大家都在干什么,比如说我查南京未来网,可能关心的就是开大会了,这个时候我们就把感知推到一个新的高度,还有人的历史查询,还有问题表达方式,包括他的情感。情感能起到很重要的作用。到了知识综合,主要就是把知识相互关联化,传统只是传统的索引,因为对一个问题可能有几万几十万个答案,比如说有多少人点击都是符合用户需求的文字中给他做推荐而已。但是我们现在关注的是智慧解答,就不止是存在信息,需要把你关心的问题关联化,现在是知识图谱是最好的手段,比如说说到李院士,他搞曙光机,然后我们关心相连的。比如说李院士有什么新的项目,比如说李院士关注结构化的问题,或者未来网络重点是不是把它作为一个计算机看的问题,是因为我们事先关联到一起了,怎么关联怎么组织。检索很重要取决于我们把它做索引,让他一把把它抓起来。第四个就是解决方案,我们把存在信息拿出来了,这个要符合你的意图,还替你做大量的优化,我们一开场就说到要找一个地方去,比如说在这个例子去看病,我周边可能有协和可能有一些什么医院,我通过关注他的更多信息,距离信息、交通信息、排队信息、历史口碑信息,服务能力的问题,然后给你推荐到哪最好,我最近也跟搜狐建议你可以花钱买排号的信息,银行也有排号器,搜狗本身有地图信息,你不光有地图流量把排号放你那了,今年你似乎花钱了,人们就把流量分布了,小病就就地看了,大病我守死301,排完小医院还有一些人来,第二年不给钱他给不给你?还是给你,第三年还得给你钱,携同就是这么干的,一开始是要花钱给宾馆信息,现在是宾馆给他们钱的,这个时候给出解决方案改善服务效率。最后一个是安全传统的信息安全是过滤,比如说到谷歌查希特勒,最后会有一段话说根据投诉,你查的信息删除了,现在安全不仅仅是它了,因为我们要给答案,不是要给信息在哪,信息真实不真实你不能自己判断,我需要给大量的信息一致性,有的人这么说有的人那么说就要判断信息科选择性,从真实性讨论。当然我要隐私保护,我们现在可能有定位,比如说方滨兴工作的时间可以搜搜我,但是非工作时间不能搜我,还有一种方法就是产生的简单放,他说你涉及到隐私跟这个人有没有关系,需要擦掉等等。

搜索引擎的搜索范围有三个方面的变化,一个是搜索空间有变化,其次是搜索信息有了扩张,原来可以搜索信息现在可以搜索物品,还能搜索到人,这个人的情况。第三就是我们给的答案就是一大堆标量,现在可以给了向量。

最后我给这么一个定义,网络空间大搜索是实施快速搜索物体、人物信息及时间用户属性,能够对网络空间各种对象高效的组织和索引,提供智慧解答,也是我刚刚说的把搜索结果变成解决方案,向网络要智慧,搜索结果从标量到向量。我们说有五大技术,宽带、移动网络、大数据云计算,我们把宽带扩展到未来网,这些都是我们关心的,要不然就是依赖这个手段做事情。新的技术促进了大数据的推进,从两个角度来看。没有搜索引擎就没有互联网应用的今天,不要把搜索引擎看成谷歌、百度,携程、当当也是搜索引擎,我们现在推物联网推更多的网络,哪怕我们推未来网,没有搜索引擎都推到此为主就推不动了,听了物联网有人查到物联网的东西吗?查不到因为没有搜索引擎。第二个大数据这么海量的今天看的东西都变成噪音了,我们要知道什么是真正我需要的,这个要智慧,通过智慧解决大家的需求。好,我的报告就到这里,谢谢大家!