发力智能信息检索与挖掘 顶尖研究团队打造"超级助手"
有了“贾维斯”,“钢铁侠”可以毫无后顾之忧地穿梭地面、天空,远程指挥机甲,攻击敌人,拯救世界……
有了“大白”,小宏脸色微红、肢体微痛,就会得到全身健康扫描,获得多个健康建议……
还有《流浪地球》中被赋予重任的“莫斯”……
几乎所有超级英雄的身边,都有一位能精确感知甚至预知主人需求的“管家”,毫厘不爽地匹配主人想要的信息资料、行动建议等资源,使主人变得更强……
“其实这样的‘管家’,每个人都有,这就是另一个‘自己’。”文继荣说。8月底,这位中国人民大学信息学院院长,刚刚荣膺北京智源人工智能研究院“智能信息检索与挖掘方向”首席科学家,他与来自中国科学院、清华大学、北京大学等高校和科研院所的10位科学家组成顶尖研究团队,全力打造“善解人意、无所不能”的个人智能信息助手。
也许,在不远的将来,科幻就将变成现实。
图书馆里的小卡片
1990年,文继荣考入中国人民大学,就读经济信息管理专业。
上大学的时候,图书馆是文继荣最爱去的地方,也是他最憷的地方。
上世纪90年代初,计算机、网络都处于起步阶段,找书只能靠一张张小小的索引卡。
想要查资料,往往需要耗费一整天的时间。
那时候,文继荣常常一大早就骑上自行车从学校出发,赶去国家图书馆借书前台,埋头寻找所借图书的索引卡片。
卡片上,有一串长长的编号,可以指向某本书在哪个书库,哪个书架,哪一排。找到卡片,就要开始填写借书单,一定要写详细、写准确。工作人员接过书单后,通常会告诉文继荣“先去吃个饭”,因为他们也得进书库“按单索骥”……
匆匆吃完饭,文继荣再赶回国图,才会看到想借的几本书。然后是办理借阅手续,或者复印其中的一些资料……等一切忙完,抱着心爱的书走出图书馆,往往已是夕阳余晖。
“现在的年轻人都觉得不可思议。”文继荣说着,笑了,“他们在宿舍、教室,打开笔记本电脑上网,可以随时搜索、借阅学校图书馆里的几百万册书籍,查询全世界几乎所有主流的文献数据库。”
“索引卡,早就过时了。”年轻的学生曾经这样说。文继荣点点头,又摇摇头。
的确,在现代图书馆中很难再见到索引卡,也不会有人再翻索引卡找书。但这张3×5英寸的小卡片不该被人类忘记。
从最初用于整理动植物和矿物信息,再到后来用于图书馆系统目录索引,这张小卡片曾经帮助人类分类所有的知识。
更重要的是,正是这张小卡片,以及后来不断发展的分类索引、图书馆编目革命,催生出一个又一个获取信息的创意,并最终孵化出互联网的原型,给了我们快速获取信息的无限可能。
文继荣说,借助高速互联网、信息化技术,全世界的学术资料连接成了一个庞大的“图书馆”,“我们要做的,就是找到那张能快速抵达所需信息的‘小卡片’。”
办公室里的“大白”
文继荣的办公室里,一块约1.5米长、1米高的白板竖在办公桌背后。
白板上写着一堆技术研究符号、公式,最下方画着5个形态各异、憨态可掬的“大白”。“这是我女儿上小学时候画的,她特别喜欢《超能陆战队》里的机器人‘大白’。”文继荣凝视着“大白”,脸上有幸福,也有得意,“现在女儿都上初中了,我一直舍不得擦掉。”
也许给女儿制造一个“大白”,也是文继荣不断探索的动力。
无论是在中国人民大学读本科、读硕士,还是在中国科学院完成博士学业,抑或是作为首批研究人员加入微软亚洲研究院,看科幻电影一直是文继荣喜欢的休闲方式,“不仅能放松,好多电影情节,还能给我的研究带来灵感。”文继荣说。
比如《钢铁侠》里的“贾维斯”,能独立思考,帮助主人处理各种事务,计算各种信息;《超能陆战队》里的“大白”是私人健康顾问,能扫描生命指数,存储多达一万种医疗知识,随时为主人提供医疗帮助……
文继荣说,这都是典型的智能化个人信息助手,这才是未来智能搜索技术应该发展的方向和目标。
博士毕业之后,文继荣一直在朝着这个目标努力。他专注于信息检索、数据挖掘等领域,获得多项专利,成为搜索领域专家。他所领导的研究团队在互联网搜索和数据挖掘领域做出了一系列开创性工作,开发出的“微软学术搜索”“人立方”等产品,名噪一时。
2013年,文继荣回到母校中国人民大学任教。为支持信息学科建设,人民大学专门建立了大数据中心,文继荣和团队如鱼得水。
目前的搜索引擎不够聪明
我们常用“学富五车”来形容一个人学识渊博。“其实,五车的知识也挺有限的。”文继荣笑着说。“学富五车”这个成语诞生的时候,中国人是在竹简上写字,五辆大车所装的竹简,知识信息含量并非遥不可及,依靠互联网和现代搜索技术,可以轻松拥有。
8月底,在“智能信息检索与挖掘方向”智源学者候选人发布会上,文继荣做了一场报告,深入浅出地讲述“智能信息检索与挖掘”。
文继荣提到了每个人都很熟悉的搜索引擎。他说,搜索引擎如今已成为人们主动获取信息的主要手段,也是迄今为止最成功的一项大规模人工智能应用。在过去20多年里,搜索引擎极大地方便了我们的工作与生活。可以说,搜索引擎提升了人类获取信息的能力,拓展了人的记忆查找能力。同时搜索组件开源化,也已经潜入各种互联网应用,“我们浏览的各种网页,使用的各种手机APP几乎都具有搜索功能。”文继荣说。
“但是,现在的搜索引擎还不够聪明。”文继荣说。
“不够聪明?我觉得找信息,足够用了!”记者说。
“那是你们要求太低了!”文继荣笑道,“大家已经习惯搜索引擎返回不相关的结果,然后靠自己不断变换输入关键词、遍历多个网页来寻找信息。但搜索引擎本应做得更好!”
文继荣说,事实上搜索技术的架构和交互界面已经30年未变,搜索的核心技术已经10年没有重大进步。因为用关键词检索的方式表达能力有限,在使用过程中,通常和搜索工具的信息交互都是采用“一问一答”的方式,无法完整描述整个信息需求,搜索系统也不会主动交互和引导,只是高度依赖用户的表达能力,获得的信息也是千人一面。
“超级助手”未来五年将有雏形
智能信息助手,就是文继荣认为的“聪明的搜索”。在他看来,智能信息助手将取代搜索引擎成为连接人与信息的新工具,用存储、计算和智能拓展人的能力,构建具有超级记忆力、知识能力和分析能力的“超级助手”。
如果再深入一步,这个信息助手还应具备个性化特点,通过不断的深度学习,与每一个人的行为习惯、爱好相匹配,如同配置了一个加强版的自己来当“助手”或“管家”,“这远远不是现在我们在市面上见到的那些数字助手所能比拟的。”文继荣说。
文继荣举了个例子——如果我们想和朋友聚餐,但又不确定去吃点儿什么。当你提出聚餐成员时,这个信息助手会自动根据聚餐成员的喜好,安排餐厅。比如都是浙江朋友,那么在这个时节,应该更愿意来一壶黄酒,尝几只大闸蟹,于是“信息助手”推荐了北京很有特色的绍兴菜馆,还帮你订了位,叫了车。“舒心吧,这就是个性化的智能信息助手,是我们正在研究,力求打造的目标产品。”文继荣说,它善解人意,无所不能,就像你身边的“贾维斯”或者“大白”。
“智能信息检索与挖掘方向”研究,远非仅限于高质量地服务个人。文继荣说,它所带来的成果价值将在全社会生产力提升、生产方式变革的方方面面得到体现。
统计数据显示,截至2018年12月,我国网络域名总数达3792.8万个,网站数目523万个,网页数目2816亿个,我国在“货架”上可供下载的移动应用程序也已经达449万款。这些数字实实在在地反映着社会运行、生产建设和百姓生活。如果能通过一系列人工智能技术,整合、优化这海量的数据信息,就可以有效服务生产与生活。
例如在生活中,我们习惯了网购,也诞生了一批“选择困难户”。如果在网购中,系统嵌入的智能检索信息能精准找到消费者所爱的产品,提供直达内心、令人无法拒绝的理由,网购的效率就会大幅提升。
在生产领域,智能数据检索与挖掘有助于企业不断优化产品,调整自己的发展方向,精准对接市场。
智能信息检索甚至可以使新闻媒体从业者如虎添翼。比如,记者突然接到了新闻采访任务,智能信息检索与发掘技术可以快速、精准地提供所需要的资料背景和该新闻事件的最新进展,让记者后续的采访有的放矢,提供高质量的新闻产品。
作为团队首席科学家,文继荣直言,“交出怎样的成果”是他最大的压力。
智能信息助手本质上是个软件,它的外观形式可以是单独成形的硬件,也可以与我们日常使用的手机等设备深度整合绑定,但功能一定是最强大的。
文继荣告诉记者,今年起将全面迎接5G时代的到来,物物相连的速度将大大加快。“如果顺利的话,未来五年,这个‘超级助手’将初具雏形。”
研究团队
“北京学派”即将登上舞台
1998年年底,还在中国科学院计算所读博士的文继荣,被一家新的研究机构所吸引——新成立的微软中国研究院。后来,文继荣成了研究院里的一员,一扇神奇的大门,就此打开,他第一次接触到了“搜索”技术。
20年过去了,又一扇大门在文继荣的面前打开——去年底科技部与北京市委市政府支持成立北京智源人工智能研究院,“这使跨界成为可能。”文继荣说。
如果想打造一个最懂自己的管家,这要求智能信息助手必须具备自然语言对话、高精准知识融合、场景感知、互联网数据与个人数据高效整合等能力。需要攻克数学与认知基础、基于自然语言的交互信息获取、信息的深度挖掘与表达等一系列难题,“这些几乎都是人工智能的精髓。”文继荣说,他需要一个超级精英团队,跨学校,跨领域。
“智源学者”使文继荣有机会打造最强战队。
今年8月底,北京智源人工智能研究院发布“智能信息检索与挖掘方向”智源学者候选人名单,这是该研究院启动“智源学者”计划以来发布的第三批重大方向支持学者,共有来自中国科学院、清华大学、北京大学、中国人民大学等单位的10位科学家名列其中。
入选的10位学者平均年龄在40岁左右,正处于学术研究的黄金时期,他们在信息检索、数据挖掘领域都已经成就颇丰。如44岁的北京大学教授崔斌,是数据库与数据挖掘领域的杰出学者,长江学者特聘教授;42岁的清华大学教授唐杰,从事社交网络挖掘与知识图谱的研究,国家杰出青年科学基金资助者。此外,来自清华大学的王建勇和刘奕群、中科院计算机所的郭嘉丰、中国人民大学的徐君等一批学者,都是相关领域全球顶级科学家。
文继荣自豪地说,在智能信息检索与数据挖掘领域,这个团队的实力绝对是国内第一,放眼全球任何一个科研机构也是顶尖的,“国外最顶级的高校,能集合起三四个人就非常不易,我们一下子集合了10位。”每位科学家各自还有一支学术团队,因此整合起来,这是一支实力惊人的学术团队。
文继荣很清醒,团队必须直奔解决实际应用需求,而不是“各自为政”,发一堆论文了事。他说,团队每个人的学术分工已经确定,未来会定期研讨,及时交流进展,共同解决一系列“卡脖子”问题。团队有一个共同的目标——期待以这支团队为基础,未来能形成智能信息检索与数据挖掘领域的“北京学派”。
焦点回应
人工智能是否会失控
不少科幻电影中,机器人甚至计算机系统越来越聪明,某一天突然“觉醒”失控,危害人类社会。我们的智能信息助手会不会突然失控带来危险?比如疯狂下单购物、自动支付,对身边人发起网络攻击等。
文继荣表示,大可不必担心。人工智能是没有意识的,它靠人类设定的方向发展,即使自主学习,也有设置的既定方向和目标。比如自动驾驶汽车,它再聪明,也要事先设定“路口要转弯”“遇到人或者障碍物要绕行”等指令,基于此再通过深度学习不断优化行驶能力,而不是横冲直撞。
未来的智能信息助手的确会非常聪明,但每一个聪明的层级,其控制权限架构都是由人在更高一个层级设定,不会也无法超越。即使系统出了故障或者漏洞,人也可以在更高层级对它进行修正,或者中止运行。不会出现科幻电影中的那种“觉醒”。
- 标签:
- 编辑:杨紫
- 相关文章