当所有的科学成为数据科学

译者:lanmogu | 发布: | 发布时间:2013-07-10,星期三 | 阅读:1,598
原文:When All Science Becomes Data Science | Science Careers
原作者:Vijaysree Venkatraman

学习从数据中找到有用信息,发现其中的矛盾与无常、并且知道如何处置,就和在物理实验室学习仪器操作一样,是一种动手能力。

——格雷格·威尔逊

莎拉·利奥布曼(Sarah Loebman)是华盛顿大学天文学系一名研究银河系演化的博士生。和她一同工作的两个团队,一个负责夜观天相,另一个进行高分辨率计算机模拟。两个团队都在与浩如烟海的数据搏斗。”从前,我每天大部分时间都在往电脑上传数据。”她说道。

当物理系同事从NASA得到一笔经费,研究怎样将数据库技术应用到天文学时,莎拉和计算机系的同仁加入了他的项目。她想看看自己还能拿那堆不听话的数据怎么办。萨拉做的第一件事情,是报读了一门研究生的《数据库管理系统》。这改变了她对自己工作的看法。“数据库使我不再只拘泥于某一个时刻的模拟结果。”很快,她开始帮助其他同事处理数据,并优化他们的工作程序。

2009年,莎拉发表了论文《Pig/Hadoop和关系型数据库管理系统能帮助我们分析巨量的天体物理学数据吗?》。她即将在密歇根大学安娜堡分校开始博士后研究,在她看来,是跨学科的研究成果帮她得到了这个机会。

9252980499_cf8758e405

变革将至

埃德·拉佐沃斯卡(Ed Lazowska)是华盛顿大学“比尔和梅琳达·盖茨-计算机科学与工程基金会”的主席。埃德认为,数据驱动型的发现将成为一种常态。一个新环境将造就出许多利奥布曼一样,既在自己的领域有所专长,又能熟练应用数据科学的研究人员,并使他们从中获益。他将这些人称作“π型人才”,有两条分属不同领域的健全腿脚支撑他们前进。

“所有科学都在迅速变成所谓的‘数据科学’。”华盛顿大学信息科学研究所的比尔·豪(Bill Howe)说道。今日的基因测序仪、望远镜、林冠层、道桥、建筑和POS终端上,都可以安装传感器,蚁穴中的每一只蚂蚁都能被做上标记。真正的挑战,在于从浩瀚的数据汪洋中找出可用之物,并将它们转化成有价值的东西。这个年月,工程学、科学、社会科学、法律、医学甚至人文学科的人,都抱怨自己快淹死在数据里,想找个分析和管理它们的东西。

9255763886_fde1009af7

学会写码、并能游刃有余地应付大量数据集,或许很快会成为传统科学领域的必备技能。为了将日常的数据处理任务自动化、实现不同分析工具之间的数据搬运,许多科学家已经编写了程序脚本。这些基本功能——还有基本的构架——为更加迅速与自动化的数据管理铺好了前路。但要优化利用这些飞速累积的数据,还需要用上数据库、可视技术、机器学习、并联系统等方面更多的计算机技术。

写码训练营

需求就是动力,即便对那些有统计学和相关数学背景的人相对容易一些,其他学科的研究人员也能够在一段合理的时间内,学会处理大量数据所需要的技能。“这完全办得到。”“软件工坊”(Software Carpentry)创始人格雷格·威尔逊(Greg Wilson)如是说。“软件工坊”是一个由Mozilla和阿尔弗雷德·P·斯隆基金会共同出资的机构,过去15年里一直致力于帮助科学家开发更好用的软件。

1980年代末,威尔逊还是爱丁堡大学计算机科学系的博士生,同时在校园里作一名程序员。当他将物理学家编写的代码输进超级计算机时,十分惊讶地发现,其中有一些的效率十分低下。“我看着他们花上几个小时甚至几天,才弄出那些我几分钟就能搞定的东西。这些科学家比我聪明得多,他们只是不知道早有人弄通了那些让他们挠头的代码。”

威尔逊设计了程序创建、调试和版本控制的课程。“纯粹是自卫训练。”他1992年毕业,六年之后,得到了在洛斯阿拉莫斯国家实验室给科学家和工程师们上课的机会——教他们如何有效率地编码。威尔逊在企业和学术界都待过,现在是Mozilla基金会的全职雇员,他训练出的志愿者正在全世界的校园训练营里教人们编程。

9252980507_013c990bca

对那些想要踏入数据催生的新科学领域的年轻科研人员,威尔逊的建议是:选择数据密集型项目、保持专注、并且学习控制数据容量。“学习从数据中找到有用信息,发现其中的矛盾与无常、并且知道如何处置,就如同在物理实验室学习仪器操作一样,是一种动手能力。”人在实践中更容易长进,而研究生学习可以提供实践的天时与地利,威尔逊补充说道。最大的困难并不是编程上的,“而是判断应该使用哪种分析手段,分析出的结果又是否有用。”开源社区,在他看来,是一个找寻编程导师的好地方。

上课去!

为了方便更多传统科研人员学习数据科学,一些院校已推出了提供证书的数据科学和数据采掘课程。网络上也出现了入门级课程,譬如Coursera上的这一发

在计算机系找一些选修课程,可以帮助研究人员获得自己需要的技术,但许多科学家发现,这并不是最有效率的学习方法。一个对他们的学科领域有足够了解的编程教员,授课的效果要远好得多。

朱莉·梅西尔(Julie Messier)是亚利桑那大学研四的学生,她在加拿大一个北温带森林保护区测量了25个物种、超过400棵树木的35个不同指标。为了完成论文,她必须用到编程和统计学的技术,对这片巨大的数据网络进行分析。她在犹他大学找到了一门一学期的课程——“生物学家的编程课”。这正是她需要的,但犹他州路途遥远,课也没有在网络上公开。授课教师伊桑·怀特(Ethan White)建议梅西尔到自己志愿工作的“软件工坊”去。意识到系里好多人和她有相同的需求,梅西尔在图森的自家校园里组织了一个为期两天的编程突击营。

只需贴补路费和食宿,"软件工坊"的志愿者就能免费上门开办速成班。系统化的校园课程可以向学生们提供需要的技能,但其中总有些东西他们一辈子也用不到。"速成式"培训却只教有用的东西,不过往往效率不高,学生常产生挫败感。梅西尔觉得,速成班可以作为“需求向”学习过程的一个不错的补充。(这是梅西尔的博客,里面有她的感受。)

自学成才

速成教育也许并不完美,但对杰文·韦斯特(Jevin West)却很管用。韦斯特是瑞典于默奥大学一位有生物博士学位的物理学博士后,他与人共同创立了“特征因子(Eigenfactor  Project)项目, 按一定规则为科学知识排序,并绘制一张分布图。他们将学术文献看作一张大网,论文构成节点,引用是其间的联系。"我们可以用这张网衡量学术影响力,最重要的,是它能在不断膨胀的文献海洋中发挥导航作用。"韦斯特说道。最开始对计算机感兴趣的时候,他没有上过一堂正经的编程课,不过,他周围有很多这方面的专业人士。"我很幸运,不明白的都能问他们。"

学得越早,效果越好。华盛顿大学化学工程系的研究生安德鲁•怀特(Andrew White)很小就开始玩父母淘汰的苹果电脑,高中时一度想当个黑客。如今的他,正在用计算机模型寻找新的生物材料。他创建了一些分析数据的网页应用供大家使用,并且设计了一个线上软件,在同事之间共享数据。

怀特说,像他一样自学成才的程序员,一般都在网上阅读教程和书籍,看彼此写的代码,在公共论坛上讨论问题。研究生时,他又在计算机系上了一些选修课,确保自己已全面掌握了编程的基础。

要成为"π型人才",有很多道路可以走。



 

版权声明

文章编辑: ( 点击名字查看他发布的更多文章 )
文章标题:当所有的科学成为数据科学
文章链接:http://ccdigs.info/39742.html

分类: 多向思维, 科技新闻, 科技驿站.
标签: ,

发表评论