日积跬步,方致千里——专访华雯

更新时间:2015-11-05 15:48:27 浏览量:

 华雯是我院2006级计算机专业本科生,曾荣获“全国大学生信息安全竞赛一等奖“,获评第一届萨师煊精英基金奖学金,以及“三好学生”、“优秀学生干部”、“优秀学生党员”、“优秀毕业生”等多项荣誉称号。本科毕业后继续在我院攻读博士研究生,师从周晓方教授,后被我院选派前往澳大利亚昆士兰大学联合培养。曾先后在Teradata、微软亚洲研究院、澳大利亚昆士兰大学、澳大利亚新南威尔士大学等地进行长期的交流访问。主要研究方向包括数据库管理、数据挖掘、智能信息检索、语义网技术、图结构管理与查询等。曾作为第一作者在SIGMOD、ICDE、WSDM、APWeb等数据库与数据挖掘领域重要国际学术会议上发表多篇论文。2015年荣获ICDE最佳论文奖,这也是中国学者第一次在数据库顶级国际学术会议上获得最佳论文奖。2015年10月受邀在中国计算机大会CNCC Plus特别论坛上做特邀报告。

或许成功就是日复一日的坚持,就是每天对算法模型做出一点点改进和优化,就是每天平凡却又充实有趣的的日积跬步。想去听那些简单自信的故事,听师姐把有趣的经历吟唱成一首诗歌,听她讲述科研的经历,听她回忆一起看鬼片的趣闻。而在回首时,惊叹和赞美的并非那耀眼的荣誉和骄傲,而恰恰是那些细水温柔的流年。

简单的兴趣,开启了梦想的征程,高中时与编程比赛的第一次邂逅就让师姐慢慢发现了编程的趣味。“高中时参加编程竞赛,也获得过较好的成绩,慢慢发现可以通过自己设计的程序去解决问题时会很有成就感。”而这些有趣的经历,这些小小的成就感也让师姐在高考填报志愿时选择了计算机,走上了精彩的程序媛之路。

大一的勤奋,大二的认真,一点一滴的努力汇聚成了她厚积薄发的扎实基础。“搞科研最重要的就是扎实的基础知识和较强的编程能力。因为做研究时,导师一般会默认你可以自行通过编程实现具体的算法,所以要求在大一时积累编程基础。而大二大三的方法课和理论课也对研究起着至关重要的作用。科研需要深厚的数学功底,算法的理论证明和公式推导都需要建立在数学之上,需要用数学论证自己算法的正确性和合理性,当我们提出一个问题的解决方案和算法时需要用严谨的数学论述去证明自己算法的正确性和可行性。”扎实的基础为师姐的绽放助力,而这些日积月累的奋斗也塑造了她坚韧的品格,面对问题和挑战,迎难而上,勇往直前。

一步一个脚印的成长,从只会编程解决简单问题的编程新手到独挡一面独立思考的科研大牛,每一天都见证了自己的进步。“博士阶段做研究时,导师一般只会与自己进行三次讨论。第一次讨论,需要自己提出问题,导师帮忙分析问题是否可做,根据问题的可操作性和研究意义最终确定研究课题,之后由自己查阅文献进行研究,并提出相应的算法和问题解决方案。而第二次讨论导师则会对算法的深入程度进行一定的指导,之后需要自己建立模型将算法实现,需要做实验、写论文。而最后一次讨论则是对成文的修改和讨论。因为博士生要求具备独立研究的能力,所以导师一贯注重培养我们独立分析问题、解决问题的能力,采取放养政策,保证我们自己摸索研究,只在必要时给予相应的指导,希望通过这种方式不断提高我们的科研能力。而这些历练也都让自己不断成长。”

成长源于实验室的科研和学习,更源于实习时的经历和创新。在实习时企业不只希望提高你的科研能力,更希望你能够解决比较实际的问题,所以在企业实习的好处就在于会有具体的问题和数据进行分析,而且能跟许多同事进行讨论,收获很多。而师姐当时正是在微软实习期间发现了问题并不断优化,最终完成了论文《Short Text Understanding Through Lexical-Semantic Analysis》,而这篇论文也被数据库三大顶级国际会议之一ICDE 2015 (31st IEEE International Conference on Data Engineering)作为长文录用,并获得最佳论文奖(Best Paper Award)。这是中国学者第一次在数据库顶级国际会议上获得最佳论文奖。

而当聊起写论文的经历,师姐侃侃而谈道:“我在研究必应搜索引擎的用户体验时发现,必应搜索引擎的查询效果往往没有谷歌的好,于是想分析这种现象的原因。经过大量分析查询日志和查询结果,逐步发现传统的大部分搜索引擎采用的是基于字面信息匹配的检索策略,其实并没有真正理解查询语义和查询意图。就像当用户搜索apple这个单词时,搜索引擎并不能确定用户查询的是吃的苹果还是苹果公司。于是我们希望设计算法帮助计算机理解查询语义。后来又将这个问题进一步泛化为短文本理解技术。传统语义理解主要应用于长文本理解,多是基于统计分布的方法,分析概念和文本在词汇上的统计分布。但短文本字数有限,难以得到有意义的统计概率分布。这就是需要克服的研究难点。不同于长文本的处理策略,短文本理解需要新的算法和思维方式进行处理。而我们的创新就是转换思路,不应用统计信息,而是利用词组之间的语义关系,依赖辅助信息如用户兴趣度、实体热门度等来建立短文本理解的基础。例如,查询apple的用户如果经常关注电子产品的话,可能他想查询的就是苹果公司而不是吃的苹果。”

“这项研究的其中一个难点就在于如何建立词组间的语义关系以及如何利用这些语义关系进行短文本理解。我们不可能一一枚举词组间所有可能的语义关系,因而使用一种共现关系来统一所有的语义相关关系:如果两个词在一个文档中经常共现,则认为他们是语义相关的。于是自动分析十几亿个网页抽取出词组之间的关联,同时为保证语义关系的准确性,考虑各种因素对相关程度进行加权从而得到较好的效果。同时,为了保证短文本理解的效率,提出了有效的压缩机制、近似算法等来减少在线处理的时间开销。”听着师姐回忆起那段经历,脑海中也不禁浮现出师姐面对一个个问题,然后依次解决,一点点进步的场景。一步步向前推进,可能就是每天想出一个小的解决方案将问题依次克服和解决,把每一个小成就堆积起来,或许就有意想不到的收获。而当师姐聊起不断将模型优化的过程时也说道:“其实企业对准确性和效率要求高,即使准确性提高1%也会很有意义,所以会要求对模型不断进行优化。而我们则花费了近一年的时间一步步不断优化模型。”

而写完论文之后并不意味着大功告成,还要仔细考虑将论文投到哪个会议。“文本理解和文本挖掘较多投在自然语言处理和数据挖掘方面的会议。但我们想投数据库会议。然而论文投递之后却被拒了。收到‘与会议主题不符’的回复时还是有一些失落的。确实,要想投稿数据库会议的话就要知己知彼,确定会议看重的重点,进而修改文章的内容和格式。我们后来参考和查阅了一百多篇数据库三大会议文章,确定文章重点和行文思路,发现数据库方面的会议除了注重准确性之外还比较注重效率问题。于是又花了两三个月的时间结合准确性和效率性对文章进行修改,最终有幸成功发表并获奖。”师姐说起论文的投递经历时也提醒大家在写论文时需要有所针对才能更有机会发表。

而当聊到科研的难点时,师姐也谈到其实解决具体问题并不是很难,真正困难的反而是确定研究课题和在论文投递后收到一大堆意见时的修改:“硕士阶段大多是导师指定问题去做,而博士阶段需要自己提出问题,不可能一拍脑袋冒问题,需要多方面分析问题可行性,同时要控制问题分析的深度,在太简单无需做和太复杂难以做之间不断权衡才能确定问题。而另一个纠结的问题就是论文第一次投递被拒后可能自信心会受挫,但也没有关系,可以继续改。可问题是会收到很多意见反馈,需要结合这些反馈信息对文章进行修改,但是文章毕竟是自己写的,可能难以以非常客观的角度进行审视和修改。而我通常是会跟他人讨论研究这些评审意见,思考论文为何会出现这些问题,让他人帮助提出一些更针对和具体的修改方案可能事半功倍。”

 

经历人大本硕博三个阶段,师姐感觉收获最多的就是本科阶段,而感动最多的也是在本科阶段。相对于硕士和博士阶段多是自己一个人在做研究,在本科阶段可以更多地跟寝室室友和同学朝夕相处,而中间也有很多感动和有趣的故事。大一时被室友带动,整个寝室熄灯后依然还在用充电台灯复习功课。而寝室感情也特别好,有次周末寝室分成两波用电脑看鬼片,然而由于存在时间差,每当一波人尖叫,另一波人就会立刻闭上眼睛。而晚上也会夜聊,有此甚至不知不觉间聊到天边泛白,那些日子现在回忆起来都特别美好。

而聊起出国留学的经历,师姐也感慨道:“有时碰到挫折或者逢年过节的时候就会特别想家,想家里的亲人,也会想念国内的同学和朋友。当然也会怀念国内的生活。而出国的经历也确实能让我们变得坚强,虽然会有导师和朋友帮你,但还有很多事情要自己去办。由于住处离超市较远,每次买东西都像打仗一样,身上背着,手上提着,走十几步就要休息一会儿,当时感觉就要崩溃了,特别无助。但慢慢这样坚持下来也就会适应了,遇到事情开始首先想到自己去解决而不是求助别人。慢慢也变得自立自强。”

而提起人大留给自己的烙印,师姐更是感恩道:“在人大学习计算机专业的最大特色可能就是我们是在人文环境下做理工研究。在人大,会历练出较强的口头表达能力。这些是在纯理工学院很难学习到的东西。曾有人调侃说:‘清华出来的是傻子,北大出来的是疯子,人大出来的是骗子。’而我却将‘骗子’这个词理解为褒义词,是对我们语言表达能力的一种认可。很多时候我们都需要向别人去推销自己的想法,能够成功表达自己非常重要。”

 

我们只需要一步步做好眼前的事,就能一步步规划好未来的人生。也希望我们可以像师姐一样脚踏实地,日积跬步,方致千里。