最新动态
SIGIR走进阿里探讨校企合作
2024-12-19 22:40

近日,中国中文信息学会青年工作委员会、信息检索专委会、阿里巴巴公司共同举办了第二届“信息检索的前沿发展与未来”论坛。来自北京大学、清华大学、香港中文大学、中国科学院等高校的国内IR领域的优秀专家学者在论坛上进行了分享。分享会后,来自阿里、中科院、北大的专家学者在分享会后对信息检索技术的发展及未来校企合作的模式共同进行深入的交流探讨,研讨中,业界和学界的代表都表达了希望能有机会在前沿技术研发领域达成校企合作的渴望。

以下是根据现场发言速记内容整理的“新鲜”干货:

主持人:

复旦大学计算机科学技术学院副教授,博士生导师张奇

研讨嘉宾:

阿里巴巴司罗、阿里巴巴搜索事业部算法技术团队的负责人王志荣、阿里巴巴业务平台事业部搜索联盟算法团队的负责人胡熠、中科院计算所的郭嘉丰研究员、中科院计算所的徐君研究员、北京大学严睿助理教授。

主持人:深度学习在检索里面的应用,在核心的模型里面是非常关键的部分?还是相对影响的因素?

司罗:我们现在用到非常多的DeepLearning,或者其他更date driven的technique,我既做IR方面的工作,同时又做NLP方面的工作,我个人的体会和感觉,将来一定是knowledge base和data driven technique的结合。我从几方面来说这个问题。

大家知道传统的IR方法,BM25,language model,相对来讲是shallow understanding或者even no understanding的tech,在这种tech下,可能一定的数据量或者说比较大的数据量在某些通用的domain可能产生比较好的效果。但我相信IR研究一定往更精细的方向发展,比如question answering,sentiment analysis等等。这种情况下不同的种类和领域所需要模型的数据量是呈几何级的增长,在细分的场景光靠data driven technique可能是不足以帮助我们完成这件事情。如何用更有效的knowledge帮助我们来完成这件事情,我觉得这都是非常有潜力的方向。

现在做一些评价或者舆情分析方面的工作,大家都知道舆情分析或者评价的工作在不同的层面,“高、低、长、短”这些词表达的情感是不同的,甚至相反的。在不同的表达之间如何利用knowledge base做这些事情,比如简单的分析,比如“这件衣服长且漂亮”,如果我们知道“漂亮”是一个褒义词,那么我们知道“长”在这里面也表示褒义词,因为“且”是一个and的关系。如果说“长但是挺漂亮”,我就知道其实“长”是负面的。加上一些简单的知识就能够帮助我们在不同的领域更好地来把数据的能力发挥出来。总结一下,将来的方向是数据和knowledge结合的方向。

王志荣:刚才司罗老师已经从大局上讲得很好,我现在在做淘宝搜索,所有手机淘宝也好,天猫搜索也好,都是我们这个大团队来负责。关于深度学习在检索领域的应用未来的方向到底是什么,可以稍微介绍一下我们在做的几个项目。在检索上面,今年最主要的几个项目,一个项目之前的检索基本都是文本检索,完全就是关键字的匹配。淘宝的商品有title、文本描述、详情页、图像,今年有一个方向,怎么把更多的信息纳入到我们的检索系统里面来,包括现在想怎么把图像甚至包括一些视频的东西放到我们的检索里面来。如果做到这一步,光靠简单的文本检索也好,文字匹配也好,做不到。我们现在也在研究怎么通过深度学习的方法,把title、图像甚至以后包括视频也好,怎么做到向量化,在向量化的基础上做检索。

第二块,在我们做排序的时候,之前更多是用传统的常规的LTR的方式来做排序。去年包括今年我们研究的方向,怎么把深度学习的方法也好,强化学习的方法也好,引入到排序体系中来。怎么把神经网络跟我们的LTR结合做个性化的搜索,我们淘宝的搜索跟传统的搜索有点不太一样的地方,它是完全个性化的搜索。这里面用户怎么来做搜索也好,用户怎么来做表征也好,以前都是比较传统的抽特征比较浅的模型来做,现在怎么样通过深度学习的方法来做更深层次的用户理解和用户表征做更好的排序。强化学习目前来说在整个工业界应该说应用的不是特别广泛,作为一个课题在研究,有的时候强化学习概念很好,但是不一定在每个产品上都适用。淘宝是一个非常好的应用场景,在淘宝所有的用户搜索商品的时候就是一个非常自然的序列化的动作。最后的结果就是成交,在淘宝比较好的数据,我们是比较闭环的数据,我们能够知道他看的东西,也知道他点的东西,也知道最终他买的东西,这个链路是比较长的。搜索过程可以抽象成一个序列决策问题,从消费者与引擎交互过程中寻找每一个不同状态下的最优排序策略,也有一些比较好的结果出来。这块应该算是走在工业界的前沿,包括去年双11还发了一些文章出来,我想大家也可以一起来看一看。这是我们做的一些项目。从项目角度和我们投入的角度的确可以看到未来就是在往深度学习往AI智能化方向发展。

另外,刚才司罗老师说的知识怎么能够进到我们的搜索里面来,之前完全以行为的方式来驱动,用户的点击也好,用户看也好,完全是用户数据驱动,这个还是存在比较多的问题。比如在淘宝上面换季了,现在是春夏之交,马上把短袖T恤推出来,完全以数据驱动的话,因为之前一直积累的是长袖T恤,让数据也好让模型也好慢慢学习,慢慢调整的话,有比较大的滞后性。这时候怎么把一些行业知识也好,专业知识也好,把这个知识能够沉淀下来,跟我们的行为数据比较好地结合,这块也是非常大的研究课题,也是我们现在花比较大的精力在研究的方向。

胡熠:大家做信息检索的肯定都知道,之前做的信息检索有query端,有doc端,需要做的事情对query进行表示,对doc端表示,中间会有一个match的过程。我们之前遇到大量的是自然语言文本,深度学习已经验证了在图象以及自然语言处理上确实有很大学习,特别机器翻译上起到质的提升。机器翻译这么难的问题深度学习都能解决,相信在query表示和doc表示上一定能够解决,我们相信深度学习可以挖掘,将来在IR领域大放光彩。

如果回到像电商领域或者某一个垂直领域,深度学习能不能发挥更大的作用,我对这个东西是期待的。举个简单例子来说,比如在电商领域,除了核心课题以外,还有很大的一块就是做ranking的时候,这个商品是不是能够满足买家的心理诉求,可成交性是否能达到?用户搜寻连衣裙,淘宝给她几十万条连衣裙都没问题,是不是这么多连衣裙都让她看到?还要解决另外的核心诉求,这些连衣裙中间有哪十条可能是她最最想买的。这个问题是以前我们做信息检索或者做document retrieval的时候考虑不是太多,有它的领域特性。我们将来深度学习怎么去刻画买家的场景,刻划买家的心智模型,怎么刻画卖家的心智模型,商家所代表的营销诉求和买家的消费诉求,怎么刻画?可能是深度学习至少没看到有这方面做这方面的研究。这两方面结合好,深度学习在电商领域一定有更大的发展。

徐君:这个问题非常得大,很难说回答一个什么好的答案,我抛砖引玉说说我的看法。关于深度学习目前发展这么多年已经不是一个“深度”可以描述的,更多代表了一类更复杂的模型和更好的高效的优化的算法,很多模型不深也纳入了深度学习,比如word representation,新建出来的模型,如果从模型角度来看也和深度没有什么太多的关系,核心idea不是深度学习,更多的研究者把自己新的idea往这个领域去加,是的这个工具越来越powerful,使得我们有了更多的选择去做这件事情。

去年我们在做SIGIR的时候把neural network引入去model一个文档和另外一些文档之前的novelty,传统的方法就是用feature的方法,现在用更好的工具构造更复杂的model,当我们有了很多的data去fit这个model的时候,它的变化是预料之中的事情。以前我听到有人说没有太多的data不得不做出假设,因此有人开玩笑在数学家眼里或者一些搞model的人眼里,自然界不是指数就是高斯。只有这样才有方法去算它,我们的那一点点data才有可能去fit那些参数。因此,深度学习给我们提供了这么大的空间,使我们不再局限于原来的假设,这是一方面。

第二方面,由于学界大量接受深度学习的想法,所以很多model被combine起来,印象最深的Reinforcement Learning跟深度学习没有关系,AlphaGO把这个深度学习的方法应用于客户端和运用它的states transition,使得model更加更加powerful,寻找到下围棋最好下的点,取得最好的效果。

我个人觉得由于深度学习在其它领域这么大的成功,因为学界之间互相影响,在另外一个领域成功自然就会想到借鉴,把新的方法引入到已有的问题里面看看能不能做得更好。在大量的不断的常识情况下经过大量的失败,我们会看到一些成功。从Chris Manning的想法来说,不断去try的话,由于大量的努力,所以深度学习今年看到很多paper的发表,score超过原来传统的model,随着data的增大,不断尝试各种,不断的try和go,相信会在我们IR领域发挥非常好的作用。

郭嘉丰:大家好,非常荣幸和诸位嘉宾一起来讨论问题。这几年有幸参与neuir推动的工作,和大家分享一下我看到的一些神经网络模型或者深度学习在信息检索领域的发展状态。说到深度学习在检索领域的应用,其实我们现在看到可以从窄的来说,一说信息检索就套到web搜索、搜索引擎,研究工作包括查询建模、文档的建模、搜索用DeepLearning来做的,这是窄的,信息检索的范畴本身是很大的,不仅仅是web搜索,大的范围来看有很多领域都可以说是深度学习已经在里面发挥作用。比如Q&A系统,包括推荐,包括paper里面大家提到的,广义跟信息检索方面相关。这几年所谓深度学习在信息检索里面发展的历史来看,其实也有这样一些特点。第一,兴起的时候可以说像word embedding出现之后,IR的基本问题,有了新的表示方法,基本从这一波开始可以看到出现了用word embedding第一波热潮,慢慢有了这波热潮,后来发现这个只是简单的应用一些NLP技术,更多做model层面,matching model做了很多包括微软提出来的model,matching model做的比较短,在title和图像上来做,文档很长甚至异构,大家不断探索neural model能不能像其它领域做得很强。我个人觉得neural model确实很强,从工业界的情景来看,像微软、Google已经用neural model,从工业界的实践,虽然没有发表这些paper,但是我们知道是有效果的。我们从研究的角度来说,我们会关注这些DeepLearning的model,在IR里面,第一步希望它能刷新新的记录,像其它领域一样,这是第一步。如果用这些新的neural model给我们原来的研究带来什么新的提示,最近有一个有趣的例子。自从AlphaGO战胜人类李世石之后,原来的下法以前认为不能这样下的下法在围棋领域里面人也开始下了。如果deep model体现出一些新的突破,我们希望对信息检索领域能带来新的思考和方向。

严睿:首先很高兴也很荣幸能和大家一起分享我做IR和DeepLearning的一些感受。说白了来讲,我不算是DeepLearning的先行者,我们也是在比较中后期开始进入到这个领域里面去。这里面有几个小故事,之前加入百度,从工业界过来,大家知道百度很早在DeepLearning上面用心比较多,最早建立ADL。对我自己来说,有一些触动的是2015年参加WWW,Bengio给了一个bundle,有人在问DeepLearning在图象、语音上做得非常好了,连续数据上简直不可战胜,可是在nature language上不是好,是不是DeepLearning对它来说没有用?Bengio说是,如果有人不愿意踏上这条路,他表示非常遗憾,他自己非常看好DeepLearning。

第二个我自己的经历,我之前投过一个paper,retrieval的对话系统,用深度学习做的对话系统,一开始用的浅层学习的方法来做基本的对话系统。我们得到的各个review看起来,上面写了几句总结,翻译成中文“老铁,没毛病”。但是有一个问题,不excited,被拒掉了。它的观点,你们做的方法是比不过深度学习的,不对我们这个方法表示看好,所以我们的work至今还在回收站里面。从我自己的体验来看,一开始没有focus在深度学习上,有环境的影响,有自身经历的影响,有听别人讲,有被拒的经历潜移默化,开始往深度学习上做尝试探索。不试不知道,一试吓一跳,效果真的挺好。大家近几年也看到深度学习属于新兴的状态,我自己做对话系统无论是生成式还是检索式的,一上了深度学习之后,它的指标非常好,有一个跳变。在我之前的想法里面是不太可能也不现实,比方说生成式的对话系统,原来要去琢磨多少个模板,要去琢磨多少个语法、句式才能写出一句流畅的话来,现在交给深度学习自己就可以干出来,而且虽然有时候不稳定,但是有时候可以生成出很让人意外的答案或者回答,像AlphaGO一样下出一些神来之笔。

我们真实的事例,问他炫迈上哪里买?他说上淘宝。我们数据里面没有这样的东西,之前没有这样的训练。有一些发现,对话是短文本,深度学习短文本的匹配上是非常好的。我自己的感受和周围人的感受发现,它在长文本上还是有一些问题,我不敢说是不是真的在standard retrieval问题上这么好,它的记忆单元想存下这么长的文本的话现在看来还是有很大困难的,会忘会丢掉,这个可能也是我们未来在IR里面需要关注的问题,如何用深度学习去解决长文本的检索。

深度学习在VIE里面非常好,在Speech里面99%以上的精度,对于文本来说还是不够,达到百分之七八十就很不错了。所以说用深度学习去做deep understading,deep是够的,但是understanding是不够的,告诉深度学习的系统我今天早上吃了豆浆油条。反过来问他,我今天早上吃什么了?它就不能回答。再往下深一步language有联想推理能力,早餐可以吃什么?这个系统基本没法玩了,没有见过豆浆油条是早餐这样一个东西,它只看到了我吃过豆浆油条,所以回答不出来什么东西可以做早餐。NLP里面对语言的理解还有很长一段路要走。

主持人:我们得到的第一个结论,大家回去抓紧时间买点GPU卡,算法基本上未来几年深度学习应该还是会在各个领域上面有很高的特别在会议上面,各种学术会议上面可能还是会风行一段时间。

胡熠:深度学习现在确实非常厉害,但是后面深度学习的可解释性,整个过程的可解释性,还有可干预性也非常重要。至少在我们的工作中会遇到:很多时候合作团队的同学会找我们说,这些bad case能不能干预掉,或者用少量的case反过来再train这个模型,把想修正的地方修正掉而尽量少干扰其他部分,这个能力不知道怎么去获得,这个也是深度学习整个过程需要进一步研究的地方。

主持人:深度学习的可解释性问题造成前面第一个神经网络模型的下降,大家不再关注的起因。刚才讨论法律这个领域,要求你一定可解释,如果不可解释的话,我不敢用。征信领域,给我这个人打了3分,信用不好,到底为什么?拿学习模型黑盒跑了一个,确实有类似的情况。总体来讲,大家还是存钱买点GPU卡,速度快一点。这个东西只要有卡,只有足够多的计算环境才可以。

司罗:我想说一下严老师提到的question answering问题,最近国际上有很多非常新的推理模型,如果做QA方向的同学会了解,斯坦福的questionansweringdataset,有很多方面的工作,比如entity作为answer来做的话,今天早上我吃了豆浆油条,我的问题是今天早上吃了什么,这个准确率已经相当高了。还有确实做几步推理,相当于文章读几遍,什么意思?Tom拿了一个球,Tom现在去了garage,问这个球现在在哪儿?回答问题就像今天早上我吃了豆浆和油条,如果问的问题是,中午我肚子里面装的是什么?豆浆和油条。Question answering是比较新的technique这种还是比较新的模式,最近不太成熟,现在已经在这个方向了。

严睿:大家试图解决,一开始发起应该是Facebook的memory networks来做一些推理工作。我们试图是不是能在里面加一些我们的探索,看能不能解决这个问题,需要try。

主持人:这种检索大家希望不再是输入query,总是有语音的输入进去之后,未来也许我们的web搜索的下一代会是问题回答式或者对话系统是不是取代现在的这样一种界面,我们是不是有更好的idea?也许我们可以产生另外一个百度,把之前的消息全部换代掉,对于这样的问题是不是可以讨论一下,刚才把算法选好了,知道下面要开始买卡做深度学习。第二步,我们做什么,请各位老师看一看,下一代的搜索引擎是什么样的。

严睿:我简单说一下,我是做对话系统也兼顾做一些QA问题,我觉得它是一个很promising的方向,可能是一个IR入口。想象一下人和人交流,我们通常都是用自然语言讲出一句完整的话,不是给他一个关键词反馈一些结果。我相信这是比较human-like的方式,对信息获取的一种入口,但是你要说它完全替代了我们的信息检索,至少我不敢这么去讲,我不这么认为。信息检索里面还有很多实质的内容,比如它的基本思想,这些东西都是在里面的,谈不上替代,我只是觉得两者应该是互相增强的,IR技术的增强可以去support对话系统或者QA系统,这两者之间是辩证的关系,谈不上取代,希望两者能够一起共生的更好。

郭嘉丰:问答系统或者对话系统能不能取代现在的搜索系统像搜索引擎这样的。信息检索,我个人期望它对我们来说非常友好的方式,未来会成为这样一个模式。只能说短期内它暂时不太会取代。确实我们要利用问答的方式,还有很长的路要走,你搜索到的东西要回答这个人的时候,以回答的方式出来,涉及到很多对信息的理解。现在是丢一堆document去看,需要用非常好的方式呈现起来组合起来给你看。我非常喜欢这种方式,觉得是努力的方向,但是短期内很难做到这个程度。至少工业界也提了,像微软也提了未来的入口是一种智能的入口。大家如果看了美剧《西部世界》,希望将来调bug在哪里,问问它就告诉你。未来有可能逐渐智能的应用会发挥越来越重要的作用。

徐君:我的理解是这样的,其实问答系统比IR系统出现要早,很早以前我们开始在研究QA系统,后来出现了IR。之前在微软跟ing合作讨论过一个问题,为什么这种IR系统后来以ranking的方式向大家展现搜索的结果。后来觉得中间有段时间想,可能其中一个原因是所谓的技术不够UI来凑的原因。我们没有办法去回答一个用户的问题,我们没有达到这种技术,那我们退而求其次,我们想到一个聪明的UI就是ranking。QA只能给一个答案,一个答案回答错了,后面啥都找不到。如果给了很多备选方案,从这个角度来说,如果QA发展得非常好,做得非常完美,如果真的到西部世界的话,就不需要IR系统了。

但是从另外一个角度来说,IR应该是一大类技术,而不仅仅是一个web搜索,IR很多技术仍然是做QA的基础,比如很多的ranking、indexing等等,这些技术都是他们的基础,长期来看不知道。短期来看,我个人觉得即使有现在如火如荼的人工智能技术,但是我个人觉得QA系统离走上实用还是有一段距离。目前我们很多的技术都是去演示,可以看到很多case,真正到很实际的场合去用,系统实用的技术离取代它还是有一短距离。IR系统和QA系统以某种聪明的方式,有更聪明的UI把两者结合起来,是不是能够让用户达到更加自然的方式获取我们的信息,去享受整个互联网和AI的技术。

胡熠:不会,这是我的答案。实际上信息检索或者搜索引擎面对的问题规模是不完全一样的,搜索引擎或者更广泛的IR的话,它通常面对的是海量数据,我们都知道一个完整的信息检索系统是多层的层层召回的过程,先筛了一批再筛一批再筛一批,最终拿到一些有可能是你想要的东西的材质。目前信息检索系统往往直接把这个东西给到用户,用户自己再去筛选,而问答系统也会基于这个在线找到答案或者通过离线的方式找到答案。IR解决问题的模式是一种通用的模式,能解决世界上很多问题,不太容易被取代,而且是比较有效的一种模式,不可能被问答系统解决。当然特定场合下是有可能的,问题分二八原则,很多top的问题可能用问答系统用户体验会更好,这是在答案比较固定的情况之下,一目了然。但是在更长尾的场景下,信息检索所承担的信息透出方式还有信息服务能力还有它存在的价值。

王志荣:现在的搜索方式一定会被颠覆,我自己感觉,现在的搜索方式并不是完全符合人的自然获取知识的方式,我们完全是被训练成那样来做搜索,比如搞一个关键字,有关键字才能找到我们想要的答案。这个不是自然的人的行为。未来这种方式一定会被颠覆,是不是QA或者另外一种形式,可能是多种形态并存更好的来服务我们的信息需求。底层的很多技术包括IR的底层技术肯定会存在。

司罗:我们为什么要有IR,为什么要有QA?人类在整个探索信息解决信息发布的过程用IR和QA的目的是为了完成一项任务。像微软的Susan Dumais做IR的很多人知道,她提出IR是一个the tech of problem solving概念。我个人的感觉是depends on types of task,人类总是探索能够用最简单的方法来解决。我觉得在不同任务的场景下最好解决的方式可能是不尽相同的。我举个例子,假设我去图书馆借书,如果我明确知道这本书是什么,这类书的title,显然我把title搜索是最直接的方式。比如买阿里巴巴的股票,输入BABA,那检索出来的速度会更快。很多的场景下定义非常清楚的场景下,其实IR是非常有效的结果。但是在其它更复杂甚至需要交互式的场景下,QA有它很大的作用,可以通过更多的语言info每个人的attention,搜索到用户所需要的信息,这种场景下QA能够达到IR现在所不具备的方式。

主持人:长期进行一些共存,而且里面底层的技术并不是相互矛盾的,大家还有很多的工作可以继续,未来一段时间不需要在某个方向上,我们有很多事情可以去做。

前面两个是比较专业比较技术的小问题,第三个问题,做检索的人都会碰到这样的困难,我们在越来越多检索的文章大部分是企业界的同志们做出来,检索做这样的文章非常困难,基本不太可能去拿到。企业界和学术界怎么更好合作?企业界到底需要什么样的东西,我们学术界除了数据之外,当然我想知道大家肯定会说数据要clean data,除了数据之外我们还需要什么,怎么样更有效地开展相应的合作,来推动整体的检索技术更快发展。

王志荣:企业界需要什么?人才和大脑,这是企业界最想要的,我们的确有比较宝贵的数据,大家知道在淘宝上面有大量的跟跟实际的金钱相关的数据,这个数据的真实性也好,它的宝贵程度也好其实不是一般的企业能够比拟的。同时,我们也有比较好的计算环境,数据能力也好,计算能力也好,包括每年机器采买量也好,包括刚才司罗说的有大量的GPU卡等着大家来用也好,数据跟计算这块的确是非常好的硬件环境,的确需要有更多的大脑进来。

之前淘宝内部说我们是坐在金山上面吃馒头,只是开发了很小的一部分数据,只发挥出一小部分的潜力。怎么把数据的潜力挖掘出来,的确迫切需要学术界的人才大脑能够一起进来合作。双方如何开展更有效的交流与合作?这块也没有特定的答案,我们今年在做一些跟往年不太一样的工作,我可以稍微简单说一下。像我这个团队之前也有九年的历史,更多是做业务,成果基本以专利的形式沉淀下来,我们很少往外发表论文或者往外去宣讲我们的东西。从去年包括今年开始,我们自己的想法也好,我们追求的东西也好,有比较大的调整,我们自己也会更多跟学术界交流,包括参加研讨,我们今年也要发一些高质量的论文。

工业界做业务做项目是强项,怎么把我们需要做的东西再沉淀一下或者再拔高一下或者再抽象一下,这些东西完全可以跟学术界一起来合作,一起来做,应该要发挥各自强的地方。今年如果大家看到新闻,我们今年跟很多的高校开展了联合实验室,跟浙大、复旦、南大还有其它学校开展了很多的类似项目合作。项目有几种,一种看看短期能不能帮助业务,在业务里面产生效果,这是一种。第二种,没有具体的目标,就是老师进来看了我们的环境,看了我们的数据看有没有什么想做的我们来支持。这个东西不一定马上就会对我们的业务对我们的项目产生帮助,但是有可能是未来两年或者三年会用到。这个东西我们也在推进的过程中,也不希望以我们的高度来限制整个学术界的高度,如果完全按照我们的项目或者我们的想法来给学术界提问题或者提要求,那基本上也是限制了大家的想法,限制了大家的高度。类似的工作,我们今年花了非常大的力气来推进。未来我们会以更开放的心态来看待这个事情,来做这个事情。现在是非常好的一个时机,大家可以更多相互交流起来。

胡熠:我再补充一下,在我理解来看,企业界需要什么?企业也需要数据。学校需要数据,企业需要的是开拓新业务场景下有效的数据。这点比较容易理解,不多解释了。

第二点,人才和合作,我是非常认同的。原来我们的CTO说锤子和钉子的比喻,在这里套用一下。学术界造了很多锤子,在企业界有很多钉子,而且钉子到处都是,用什么锤子敲什么钉子这件事情,怎么把这个线搭起来,用什么工具解决什么问题,搭起来这个事情我们现在没有一个特别好的成规模成体系的解决方案。有时候是我们自己去看一些paper,这个锤子能不能套到我们某个钉子上砸砸试试,也许砸好了,但也可能砸失败。相信学术界同样有这个问题,可能自己想了一个很好的idea,因为大家都很聪明,专业度很深,一定有很多很好的想法。这些想法能不能找一个场合一个场景把它用起来,产生很大的社会价值,相信这个也是学术界最最关心的问题。

大家都在朝这个方向努力,刚才王志荣老师说的合作非常重要,以联合实验室或者联合培养的方式,博士可以两边导师一起带,企业界也出导师,学术界肯定是直接导师的方式,更好地加深合作,这样大家都各往前走一步。把钉子聚的更拢一点,形状更好看,学术界造的锤子更通用一点。最后形成一个局面:学术界把很多的基础工作做好,工业界或者企业界可以把基础工作更好在业务场景下发挥更大的价值,形成很好的配合机制,共同面对世界,打造中国的技术品牌。

司罗:二位说得非常充分了,我简短补充一下。第一,重要的事情说三遍,工业界最需要的是人才,21世纪最宝贵的就是人才。各位老师各位同学如果有感兴趣的我们非常愿意跟大家交流。

第二,从本身的研究方向上来讲,在工业界因为受到自己的时间、精力资源的限制,一些比较基础或者更新的方向的尝试相对来说有一定的滞后性,学术界基础的算法,比如说自然语义理解、机器学习算法、优化算法,在新的尝试有很多处理的过程,这个方向上非常好,非常好的补充效应。

第三,合作的方式,一定是全方位全方面的,包括国际上的合作,可以联合项目的方式推进,和苏州大学和浙江大学等很多其它大学都建立了长期合作的关系。国内高校也有类似于合作的机制。

郭嘉丰:我简单说一下学术界第一当然是数据了,这个我不想再说了,特别是做DeepLearning之类的时候,data hungry research。另外一个,计算机领域是一个应用技术,做技术应用还是要解决问题,我们希望从工业界除了获得数据还有一些就是应用的需求和挑战性的问题。我们不可能自己拍脑袋想问题做问题,还有的在follow国外做的问题,我们想创新的话到工业界看看到底他们还有什么挑战性的问题,当下很细微的可能是他们未来想要挑战的一些问题,前瞻性的问题。在谈到合作的时候同样是这样,合作有好多层面,包括访问学者、访问学生、共同项目、联合实验室,有好多的方式来做。这里面至少从之前和工业界合作的经验来看,有不同的转化方式,如果从技术方面有一些国外就是publish paper,工业界觉得很好,可以合作,这是当下的。如果从学术界的角度来看建立一些public项目,我们希望做更前瞻一点的,可能工业界还没有来得及或者没有时间和精力在做的事,我们可以做更前瞻的,很多的学生和老师都会以这样的态度写出高质量的paper,对我们来说帮助非常大。

徐君:学术界迫切需要什么?除了数据,当然问题和方向非常非常重要,人才也非常重要。我在工业界呆了一些年,回到学术界也有一些年。人不管在哪儿是最最重要的一件事情,没有人有房子肯定是没有用的,有机器也是没有用的。在学术界人才除了老师还有我们的学生,这其实是我们最大的优势。高质量的学生、高水平的学生,不仅仅依赖于老师的培养,其实我们是互相学习的过程。老师有很多时候跟着学生在学,我个人觉得在学术界这个是我们最最需要的一个事情。当然有一点,其实我们在培养学生的时候,在学校里面学到更多的是更基础的知识,因为我们的学科是要解决实际问题,而我们的实际问题很多来自于工业界。不管是联合实验室也好,还是共同的项目也好,其实我们共同在培养学生,共同一起进步。如果让我来说,既做过甲方又做过乙方的人,大家在这个社会的时代就是知识更新非常非常快,大家都希望自己往前走,能够进步。工业界和学术界的合作更多要探讨一种模式,使得双方共同去进步,我们共同培养学生,共同培养招新的员工,这些员工是我们共同培养出来的,只有我们共同去努力,学生毕业的时候才能不仅仅是满足学术界必要所需要的学位论文的要求,也满足工业界当他们面对实际问题实战的时候能够顶得上。

严睿:我简单说两句,我和徐老师还是很像,我们在业界的时候也负责做一些学校学生的校外导师做一些工作,之前产出了非常有意思的研究成果。这个过程比较享受,共同成长,让学校、企业得到一定程度的大家都happy ending的结果。我之后回到学校,接到很多猎头电话,来自阿里小蜜的电话,要不要考虑加入?我很伤心没有接到过小蜜团队合作的电话,没有说要不要搞一些项目合作之类?我不好意思主动去问,万一数据是隐私的就不好聊了。数据平台这是我们非常渴望的东西。

在学校和业界各自有各自擅长的一堆事。业界有物理人力财力,有这么多人工,动作又快,手速很快,又KPI压力,这是业界,有平台有员工,有各种方面的有利因素。对于学校,学生没有像企业员工拼命三郎的状态,学生的好处思维不受约束,想到很多有意思的事情,有意思的检方,我们在学校也培养他们胡思乱想做一些开创性的事情。既然学校有擅长的事,比如善于解决一些难题或者善于用另外的角度来看待世界上的这些应用这些问题,那业界善于发现问题,我们不妨联合起来干个大事。企业有问题不好解决,我们一起讨论,希望能够解决好,产生有前沿有预见性的工作,填坑的事情我们来,实际用起来,赚钱的事情企业来就好,这是共赢,比较希望这样的结果,对我们来说是做了前沿的研究,对企业来说产生了价值,这是大家最喜闻乐见的。

司罗:我们在招不少NLP方向的同事加入,联系了很多NLP的同学和同事,有学术界的也有工业界的,他们给我的反馈,NLP十年前找工作的时候找不到,不知道什么地方应用我本身的技术,现在说你知道么?昨天有十个猎头找我,你是第十一个人找我的。在这点来看的话,整个时代的推动,把我们放到非常好的能够让你工作产生影响力的时代,我们大家可以有机会能够春暖花开面向未来。

第二点,经过这么多的讨论,非常深刻的一点体会,我们大家有非常多共同的东西。第一,我们都希望我们的工作能够产生大的影响,能够产生它本身的价值。第二,我们在技术上有很多相通的地方,比如今天讨论的很多DeepLearning,如何用知识更好的把数据更好地表现出来,我们有非常好的基础,能够让大家共同进步,大家有共同往前走的目标。

    以上就是本篇文章【SIGIR走进阿里探讨校企合作】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/8607.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
荣耀手机数据恢复教程荣耀手机找回「荣耀手机数据恢复教程」
在使用荣耀手机的过程中,大家难免会遇到不小心删除重要照片的情况。这些照片可能包含了珍贵的回忆,一旦丢失,可能会让人感到非
手机副卡怎么注销手机副卡「手机副卡怎么注销」
随着移动通信技术的不断发展,手机副卡已成为许多家庭或企业用户的常用选择,它为用户提供了更多的便利和灵活性。然而,当不再需
三星s8怎么样值得买吗 64G版苏宁易购4999元s8手机「三星s8怎么样值得买吗 64G版苏宁易购4999元」
  【PConline 导购】当下很多手机都有一流的硬件配置和出色的使用体验,消费者在购机时也会优先考虑这些产品。就拿三星的旗舰
马拉松赛道上的奇特造型,究竟是展示自我还是博眼球,你怎么看?
或许你会发现,每次马拉松比赛都会出现奇特造型的人物。这不,2025象山马拉松也有一些打扮另类的跑者,他们的出现瞬间成为赛道上
售价21万的诺基亚Vertu手机 你肯定没用过!手机超长待机「售价21万的诺基亚Vertu手机 你肯定没用过!」
人人都说知道诺基亚,但你真的通晓诺基亚吗?在诺基亚旗下奢侈手机公司VERTU(威图、纬图)相信很多人都不知道。而Vertu品牌研发
苹果11原相机自拍是反的怎么调回来苹果手机拍照怎么是反的「苹果11原相机自拍是反的怎么调回来」
  苹果iPhone11(系统版本是iOS 14)相机自拍呈现反方向是【平面镜成像】原理,可在自带的相机设置中修改拍摄方向,也可以在自
阿维塔06即将上市,1天后公布价格
06倒计时一天,实际上有必要重新认识一下这个品牌。阿维塔成立于2018年,主要大事件:2021年阿维塔科技全球品牌首发,正式亮相,
最新个人简历电子版 个人简历手机版免费(三篇)手机简历「最新个人简历电子版 个人简历手机版免费(三篇)」
无论是身处学校还是步入社会,大家都尝试过写作吧,借助写作也可以提高我们的语言组织能力。写范文的时候需要注意什么呢?有哪些
360行车记录仪,走过风景,走过你——体验G300 3K版前,我要分享一份记录仪避坑指南!360行车记录仪怎么连接手机「360行车记录仪,走过风景,走过你——体验G300 3K版前,我要分享一份记录仪
***感谢众测君翻牌,感谢品牌方信任***说起,大家应该都不陌生了。这东西除了能让你在说不清的时候说清楚,还有点其他用处。比如