“哎呀,这么晚了啊!抱歉抱歉,学长,我身边没什么人跟我一起聊悬疑小说,今天遇到同好了就忍不住聊太多了。耽误你看球了,真的很抱歉。”
“没事啊,录像什么时候都能看,同好难求,我聊的也很开心,反倒要谢谢你。”
“哈哈哈。那今天就聊到这吧,也不早了,不打扰学长啦。”
“没打扰,没打扰。那晚安。”
“晚安”
凌志放下手机,心满意足。不过旋即想起来对峰哥有点愧疚,于是登录电脑微信,把陈峰发给他的数据下载下来,看看有多少量。
这时候,陈峰和高峰刚好联袂回到宿舍。
“凌子,我给你发的数据看到了没?你觉得好不好筛?”
所谓筛数据,实际上就是将特征不明显的图片删掉。比如某些眼球的病变区域小点密布,那就是明显特征。有些似有非有,就不是明显特征,不利于模型的训练过程,需要删掉。
“额,我还在看。对了,你一下发给我2000张图,这也太难顶了吧。”
凌志试图转移话题,不让陈峰发现自己其实还没筛。事实上凌志知道陈峰已经很辛苦了,他手上有上万张图片,而只给了自己2000张,他自己的工作量才是最重的。
陈峰也没有察觉到什么,自顾自地回答说:
“哦哦,没事没事儿,你慢慢筛,不急。筛多少算多少,到时候把筛过的给我就行。”
“那行,我知道了。”
凌志松了口气,不过也暗自下定决心一定帮陈峰筛完。
在见识过陈峰处理数据集之前,凌志一直都觉得这是个费力不讨好的活儿,应该很消耗精力。而事实上,在某一次喊他一起吃饭时。
“我去,你这删数据删得这么麻溜的嘛。”
只见陈峰用鼠标连续选中了一行图片,没有丝毫犹豫地删除了。
“这太明显了啊,我看了这么多图,感觉视野不是很清晰的一律干掉,省得折磨自己。”
倒也不是说他这么干不好,但凌志知道如果是自己的话,肯定会一张图一张图地挨个看过去。某些图不确定要不要删,可能还要来回看好多遍才能下决定。
不过话虽这么说,数据基数的庞大决定了即便是他这么去干,也不免要消耗大量的时间和精力。但即便如此,凌志并不打算改变自己筛数据的风格。
凌志先去洗了个澡,洗完之后才发现林奇松也回来了,四人一天的科研生活都暂时告一段落。
“高峰,你上次陪老吴给本科生上课上得怎么样啊,后来也没听你说过。”
林奇松问道。
“哦哦,那个啊,别提了,上课那天简直是车祸现场你知道么。”
高峰站了起来,对着林奇松说道。我跟陈峰也挺感兴趣,坐在自己的座位上侧耳倾听着。
“那天上课他自己都没准备好,对着PPT说的话我都听不大懂,有时候都不知道说啥。本科生预计来听他讲课的不少,大多都是想保研的学生。结果那天也不知道为啥有一小半没来,中间还走了两个,当时看得我直想笑。”
“哇!那老吴岂不是全程很尴尬?”
“那倒没有,他讲他的,底下学生听不听他也不管。”
“唉,你说我俩当时为啥就选了他当导师?”
“我也不知道啊,谁叫某人当时跟我极力宣传老吴的丰功伟绩的。”
“我当时也不知道啊,也没问往届的学长姐,看他官网介绍还行,就推荐给你了。”
“唉,我们也只能认命了,本科生不像我们,我们换导师成本很大,本科生就很随意,说不来就不来了。”
凌志也有同感,导师选没选对,对于自己的研究生生涯至关重要。而对于自己的导师王海波,凌志还是很满意的。
老王并不是网上一些选导师帖子里提到的那种“放羊”导师。所谓“放羊”就是指不管学生,让其自生自灭,这样的导师显然是不负责的。
而如果硬是给老王管理学生的模式定个性的话,凌志觉得“半放养”是比较合适的。
老王对于你自身的研究想法,实验细节不会过多干涉,但他会从大的方面把握你研究思路的准确性,以及研究进度的快慢,显然是一位负责任的导师。
总结来说就是平时不咋管你,但你自己要让他对你研究啥心里有数。
凌志觉得自己显然是幸运的,在过去一年的相处中,凌志觉得王导和蔼可亲,虽然免不了有时候会有长辈的架子,但大多数时候还是平易近人的。
想想网上流传的那些硕博们被某些严苛的、不负责任的导师逼上毕不了业的绝路,有些甚至会轻生,凌志觉得自己很幸运,尽管当初自己选王导的时候也是两眼一抹黑。
“所以你看么,跟老吴坐在一间小小的实验室压力有多大。特别是坐在他旁边的杜曜,整天愁眉苦脸。”
高峰说道。
林奇松无奈摇了摇头,转过头打开电脑,开始看自己的纪录片。
一夜无话。
第二天一早,是凌志他们实验室每周一度的组会。
凌志早早来到实验室,把旁边会议室的投影仪布置好,然后把自己做的PPT拷进去,今天他要分享论文。
不一会儿,师门同学们陆陆续续都来到了实验室,紧接着,导师王海波也到了。
凌志的导师王海波40出头,今年刚刚评上了教授,正是志得意满的时候。听说家里的小儿子也刚刚出生,也是双喜临门之时。
虽然在计算机领域深耕多年,但并没有拼过头,头顶的平头发型还是郁郁葱葱,行走在路上时总是脚步带风,看见谁都一副笑眯眯的样子。
就是年纪逐渐上来了,颈椎经常性地不舒服,凌志想什么时候有机会在教师节送王导一个按摩仪试试看,也算报答王导的教育之恩。
“今天有没有人分享的?”
凌志没有犹豫,说道:
“老师,我来吧。”
凌志打开自己的PPT,毫不怯场地讲道:
“今天给大家分享一下我最近阶段性的实验结果以及论文。”
……
“这是我的数据预处理过程,我大致分为了5个步骤,……”
“这是我对句子对匹配的实验结果,两个句子属于同一人所发布即为正样本,不是同一人即为负样本。……”
“你先等下,你分类所用的特征都有哪些?”
老王问道。
“哦哦,我一会儿会详细说,我现在仅仅是先把结果抛出来。……”
“这个正样本和负样本的叫法合不合理嘞?这个实验结果你们觉得怎么样?”
老王跟大家讨论了一阵,然后让凌志继续。
“我使用的特征是一个14个维度的向量,包括人工提取的特征和神经网络提取的特征。……”
凌志讲PPT沿用了老王以前对学生们的教导——多用图表,少用文字,凌志对此深以为然。
事实上PPT本来就是用来突出重点的,如果往上面堆砌太多文字的话,讲者容易对着PPT念,听者也会觉得乏味,不会自己思考。而用图片和少量文字突出重点,就比较容易让听众们接受。
正如接下来凌志分享的论文,用一张图说明了一句话中每个词之间的远近关系。
“比如现在有两句话,‘他对媒体发表言论’以及‘他出席了新闻发布会’。虽然这两句话意思很接近,但我们如何用程序来进行打分判断呢?”
“我们应当将第一句话中的‘他’所对应的词向量跟第二句话中的每个词进行对比,找出意义最接近的那个。后面以此类推,‘媒体’对应‘新闻发布会’,‘发表’对应‘出席’。就这样通过词向量之间相似度的计算,进而合并为两个句子之间的相似度。”
凌志展示出两个句子之间的相似度:0.912,大家很容易地理解了两个句子之间的相似度是如何计算出的,因为图上每个词之间的距离远近都非常清晰。
之后凌志开始解释一些技术细节,包括每个词的词向量如何计算出来等等。
作为主讲人,凌志非常清楚讲解时需要详略得当,所以不会过多阐述细节,只用图表解释了文章的核心思想。所以讲好PPT确实不容易,细节不能太过深入,但也不能一带而过,把握好一个度是很重要的。
随着凌志分享完,说声谢谢后,会议室里大家不自觉地响起了掌声。
凌志有时候会注意到,一般在对大众讲话时,结尾加一句“谢谢”,会让观众们不由自主地鼓掌。然而大家给他鼓掌并不是单纯捧他场,而是确实觉得凌志讲得好。
“不错,实验过程和细节讲的很清楚,问题也分析的到位,论文也很值得借鉴。行,下一个,还有谁要讲?”
凌志长舒一口气,坐到其他位置上。有一个刚考上研究生,提前进来实验室的师弟站了起来,打开了自己的PPT。
“额,各位师兄师姐好,今天我想来讲一篇论文,题目叫……”
很明显有点紧张,不过凌志一点也不在意,当初自己也是这么过来的嘛。
“这篇论文的算法是这样的,……”
“你等会儿,都跟你们讲过了,不要把原论文列出的算法英文伪代码直接贴到PPT里面,你们这样做谁会去看啊,那么复杂。你应该像凌志那样画图表现出来,这样别人看起来才觉得简单易懂,知道了吗?不要让我一再强调。”
“哦哦,抱歉老师,我以后一定注意。”
“行,那你继续。”
于是师弟战战兢兢地讲完了自己的论文,也不知道大家听没听懂,最怕空气突然安静。
凌志没觉得师弟有多差,差的话也就不会坐在那里了,只不过第一次讲解PPT,可能考虑不到观众们的感受。虽然自己也没听懂多少,但也不是很在意,反正也不是自己的研究方向。真要是跟自己密切相关,那就私下里重读论文,自己去理解。
想起刚进实验室时候的自己,那时候参加组会,听师兄师姐们讲解PPT听得晕晕乎乎的,组会之后狂查资料弥补概念。
现在想想,倒不是看不起当初的自己,事实上了解自己不了解的概念也是很重要的。只不过自己当初的心态太过着急了,完全可以慢慢来。
不知不觉组会已经来到11点,老王又说了几句场面话,上午的组会就宣告结束。