首页 >> 新闻纵横 >> 正文
把文学、数据与深情共冶一炉——人文学院首篇获EI检索论文作者李洵专访
发布时间:2014年07月07日 来源:

李洵,厦门大学人文学院2011级中文系本科生,于2012年入选人文学院第一批“拔尖人才培养计划”。2014年,她和她的团队发表的论文On Developing Data Integration and Mining Platform for Classical Chinese Literature Study,成为人文学院首篇可被EI(The Engineering Index,工程索引)检索并进入IEEEEXPRO(电气与电子工程师协会)数据库的学术论文。

2013年1月,李洵获知申报“基础创新科研基金”和“大学生创新创业计划”的消息后,先选题后组队。

由于李洵只接受过基础学科的训练,没有接触过真正的学术科研,所以她先寻求了拔尖班导师黄鸣奋的指点。黄老师向她推荐了两篇文章:华东师范大学郭金龙教授的《数字人文中的文本挖掘研究》、许鑫教授的《文本挖掘在人文社会科学研究中的典型应用述评》。文章侧重概述数字人文的概念、研究内容和现状,指出文本挖掘方法是数字人文研究的研究热点与趋势,同时也介绍了欧美发达国家文本挖掘应用于数字人文研究的前沿实践。在这两篇文章的启发下,李洵初定了三四个研究方向,并由黄老师牵线,和信科的杨帆老师进行合作。而杨帆老师又推荐了路易斯安那州立大学的李昕教授给她,接着中文系的曹聪和自动化系的陈潇相继加入她的项目组。

这个横跨人文与信科两院的研究团队由此组建起来。李洵说:“正是因为事先选好课题,才诞生了一个‘混血’的团队。”然而一切才刚刚开始。

踽踽独行,摸索前进

“我一直在认真地凑热闹。我对周围的事情不太敏感,如果大家都对一件事感兴趣,这时候我可能才会注意到。若我也对此也有兴趣,我就会认真去准备和完成,我参加拔尖班也是如此。”

学术论文对她来说是解决问题的一条路。“所有问题都没有确切的回答,我只有把自己的想法敞开,与有相同疑问的人一起探讨,在这个过程中就能更接近真实。”李洵选择了专攻电子艺术学领域的黄鸣奋作为导师,以“将数据分析挖掘技术应用于中国古典文学研究和海外传播”作为研究方向,并走上了一条“孤独”的跨学科道路。

黄老师曾对李洵说他退休后,也许就没有人带她研究了,因为这一方向后继无人。但这番话并没吓退李洵,她说:“‘大数据’这个词近两年非常热,我之前在机缘巧合下看了这方面的书,觉得应用前景很广,它并非别人认为的纯概念事物。现在我们想要做的研究是有可行性的,只是有没有人想去做而已。”

然而研究路上的孤独还是超出了她的预想。文科生大多更注重精神性的追求,身边的朋友对她的项目都没兴趣,往往她一说完研究题目,别人就默默转移走了话题。曾有人问她:“为什么要做这个方向呢?好好的学术不做,你想去当程序员吗?”谁也没料到,后来李洵真的变成了一个会写程序的中文系女生。

“我们人文的同学提供思路和要求,信科同学挖掘分析数据,再把数据反馈给我们,我们再来看分析数据结果的利用价值。”这是李洵在项目申报时设想的分工,然而数据分析的难度超乎想象,由于分析手段不成熟,很多程序都只能靠人工完成。“在用手段进行分析之前,我们还得人工找出分析点,再找范例,做样本给工具分析。”

作为这个跨学科项目组的负责人,李洵必须统筹方向,带领队员们进行下一步操作。“项目做到一半的时候我觉得自己不得不去学点信科的知识。”这个学期,李洵特地选修了C++、数据库、软件技术基础课程。“从前不会有中文系的学生选这些课,班上突然出现一个中文系的学生,大家都很惊异,团队里信科的同学告诉我‘重在参与,随便听听就好’,连老师都觉得‘你是不是选错课?’”

隔行如隔山,李洵只能在这个崭新的领域摸索前进在做数据库时他们选出六百多篇可用的文章,因为不知道能用什么计算机技术,只好一篇篇译名,一篇篇阅读。这些全英的学术文献有的有六七十页,面对奥难懂的词汇,她每个都要去查。“看到脊背都僵掉了,第二天看一眼电脑,还没坐下来就条件反射地开始觉得背痛”。但她也乐在其中。“我觉得自己天天都很忙又很闲,说‘闲’是因为我在研究想问的问题,也算是自得其乐吧。因为太偏向个人喜好了,所以就是闲得很忙。”

师长引航,朋辈携行

李洵在大二下学期申报了这个项目,团队成员少,技术不成熟。尽管最后只需提交一篇论文,但他们同时在做三四个方向的同时研究。“不做就不会知道到能不能有结果,一个环节没按时完成,下一个环节就无从入手。”

他们计划了材料查找和数据录入的时间,事实上录入用时短,找材料却耗费了他们极大的精力。“关键词的那个表格我们都做了一个多月,需要对数据库一个个进行摸索”。他们最后建立了数据库和查询系统,只要输入关键词,就可以模糊寻找相关文章,而且同一作家的其他作品也可同时列出。

那段时间李洵和队员常处于疲倦状态,直到一月份他们都没能做出数据分析结果,大大超出了计划时间。“十二月就可以投论文了,当论文通道打开的时候我非常担心,生怕写不出来。”尽管压力很大,但他们从未想过放弃。“我们得到了支持,肯定要有所反馈。半途而废对两个学院的指导老师、项目组成员,对自己都是无法交代的。”

一直使用的Springer数据库改版、所有数据无法挖掘的那一天,令李洵印象最深。“在临近deadline的一个下午,信科的杨帆老师一直在打我电话,下课的间隙我给他回电话,他就告诉我Springer不能用了。Springer一崩我们也差点跟着崩溃,但一切还得重新开始。尽管第二天是台风天,我还是一大早就把项目组成员都‘抓’到图书馆查资料,当时我们三个人鞋子全湿透了。我们重新查找一个个数据库,尝试下载,最后才得到可用的样本。”

李洵笑言:“我觉得队员应该还蛮恨我的,但我们的数据量太大,没有人盯着你去做真的会做不完。我要负责监督团队的进度的责任。”今年四五月她去美国特拉华大学交流了两周,在去美国前她也不忘帮队员把所有的东西都安排好,回来还要继续赶进度。尽管过程中有诸多坎坷,但现在回想起和队员们一起奋斗的过程,她非常感激。

为这个项目奋斗的,除了李洵和队员,还有很多人。“黄鸣奋老师一直与我互通邮件,悉心指导我们的项目,但对自己的身体状况则缄口不谈。期间他因为心脏病手术住进医院,事后我才从其他老师口中得知。我去医院看黄老师的时候,他半靠在病床上,还不忘叮嘱我说,‘你有什么问题可以随时给我发邮件,因为我这里不好打电话,但是可以及时与你用邮件沟通。’”

给她悉心指导的黄鸣奋老师,沟通人文与信科两院、帮忙解决技术难题的杨帆老师,在建查询系统时义务帮忙的软件学院同学……李洵想感谢的人有太多。

“我们只是在回答最初的那个问题”

比起把项目研究的历程看成学术研究,李洵更倾向于把它当作一个回答问题的过程。“老师给出范围,大家想出题目,这就是一个起点,我们要把一路上遇到的问题都想办法解释清楚。我们做的事情都是在回答最初的那个问题——到底中国古典文学在海外传播的现状和未来是什么样的,这只是我们对一个问题的回答和假设而已。”

这篇论文谈到了数据手段上存在的问题,也谈了李洵和队员们在研究过程中的切身的体会。在中国文学海外传播这一领域,有汉办和和其他大学合作的“中国文学海外传播网”、“中国文化海外传播动态数据库”。和这两个国家级的大型项目不同,李洵的团队里只有两个中文系学生和一个自动化系的学生,在研究中国文学海外传播这个大命题时,难免会遇到信息不共享的瓶颈。他们在分析数据时,发现海外学者关注点还比较狭窄,而且一些作品无人翻译。“很多时候这些问题成为中国文学走出去、海外学者或读者了解中国文学的阻碍。我们可能没有能力解决这些问题,但可以把问题和我们的浅见摆出来。”

李洵的这篇论文也获得了今年八月在温哥华举办的ICCSE会议(国际计算机新科技与教育学术会议)的邀请信,她期待着能在ICCSE会议上接触到更多的信息科学方面的专家,和他们一起交流。

让未来的都来

在最初提交项目申请书时,李洵把截止时间定在2014年1月,她没有想到这将成为一个伴随她两年大学生活的大工程。“我们当初认为最后能给出来的成果大概就只有数据库,还有一些具体数据分析结果,并没想过要写论文。现在这篇论文只是我们在分析数据时对梳理过程的一种表现形式。”

他们如同站在一个迷宫的入口,往里走得越深,情况就越复杂,看到的世界也越广阔。“现在计划被我们推到了15年的1月份,整整要做两年的时间。”这两年仅是一个开端,对于她心里构想出的成品,她把它形容为“类似于盛大文学那样更直接更广大地使读者与作品互通、互动的平台”。之前他们着手一项总结外国作家研究模式的分析,因没有合适的技术手段而放弃,她认为有适当的条件可再继续研究。现在他们与信科的另一个项目组合作,希望能得到预期的结果。“我们提出了许多设想,需要一个一个去搭建。”

李洵当初进拔尖班也是为了和不同学科的同学接触。无论是文史哲的交融、人文与信科的跨界,还是古典文学与数字技术的共振、传统文化与全球文明的碰撞,李洵相信所有的道路都能汇合到一点,流进一个日趋广阔的范畴里。如果古老辉煌的汉语传统在跻身世界之林时遇到了障碍,那在这个人烟稀少的地方挥锄为它开拓出一条新路以便将来旅行者们的交流之旅,也不啻为一种古老梦想的使命。

李洵“历史是时间,人类学是生活,哲学是思维,中文是连接生活和思维的纽带。中文哲学人类学抱团在一起,共同在历史这个横轴上走着。”

(人文学院 钱庄)

【责任编辑:】
最新新闻
最新图文