哪些因素导致科学界中国获奖比例较少?科学领域是否也存在不平等及偏见?今天小编和大家分享的21年9月发表在Cell Systems(IF:8.6400)杂志上的文章或许会给出一些答案。这篇文章分析了科学论文作者及科研获奖者两个群体,通过研究他们的姓名和地域差异来探索科学多样性,文章作者希望以此来减少科学界的偏见。这个研究重点关注了包括生物信息学家在内的计算生物学家,使用的也多是生物信息方法,尽管文章用到的方法并不复杂但是研究的问题却十分值得我们思考。
Analysis of scientific society honors reveals disparities
分析科学协会荣誉揭示差异
一. 研究背景
目前,尽管参与科学研究的女性人数在增加,但就论文发表量、引用量、获得资助、合作和认可程度等方面来看男性和女性科研人员之间仍然存在不平等的现象。同时在科学荣誉方面也存在明显的国家地域等差异。因此文章比较了来自国际计算生物学学会412名获奖者的性别、姓名和所属国家,希望能够通过分析不同科学领域,进而采取有针对性的干预措施来改善领域内的偏见。
二. 研究方法
1. 获奖者收集:研究分析了ISCB相关会议(ISMB)和在许多大洲举行的会议(RECOMB),在国际科学委员会的网页上收集了2009 - 2019年的获奖者全名及获得该荣誉的年份。
2. 名字处理:研究从网站上提供的全名提取获奖者姓名,选择第一个非首字母的名作为名字,最后一个名作为姓氏。同时创建了一些函数来简化pubmedpy Python包中的名称来进行标准化的名字和姓氏处理。
3. 最后作者提取:研究假设论文作者列表中,最后一位作者最有可能被邀请做主题演讲或被授予研究员荣誉。因此,研究使用PubMed检索最后作者姓名,并使用E-Utilities API提取作者的姓名和顺序,从pubMed编译了176773篇期刊文章目录,它们是从1993年到2019年英文书写并标记为MeSH也就是计算生物学的文章。最终作者分析了1998年至2019年的176110篇文章,同时从PubMed DocSum XML记录的PmcRefCount中提取了文章被引用次数。
4. 国家关系:由于出版物通常会提供作者的联系列表将作者与研究机构联系起来,并提供相应的物理地址。因此研究利用pubmedpy Python包提取了PubMed和PMC XML记录中的从属关系,并利用geotext 和geopy.geocoders.NominatimPython工具从文本中提取国家。
5. 性别评估:作者使用https://genderize.io API预测获奖者和论文作者的性别,该API从网上收集了超过1亿个姓名性别对,是三种广泛使用的性别推断服务之一,其能够预测名字是男性或女性的概率。
6. 名字起源估计:研究开发了一个模型来预测名字的地理起源。目前Python包ethnicolr可以预测名字的地理起源,但有一定局限性,为了解决这些局限性,作者建立了一个类似的分类器--LSTM神经网络,其能够从姓名字母序列模式中推断起源区域。作者在80%的Wiki2019数据集上训练预测模型,并使用剩余的20%评估其性能。这个模型被称之为Wiki2019-LSTM。
7. 关系分析:研究通过将在每个国家工作的作者比例与获奖者总人数相乘来计算预期的获奖者人数,然后进行富集分析来检验ISCB获奖者和特定领域作者之间的国家比例差异。作者用泊松模型估计了log2富集的95%置信区间。
三. 研究的主要内容及结果
1. 指标的选择及背景的定义
在文章的第一部分介绍了研究中做的选择以及这些选择的原因。首先研究选择在获奖者和论文作者水平上进行分析,这是由于如果一个科学家获得三次奖项,这三个荣誉代表了不同的选择过程,应该单独考虑。研究还估计了每一篇论文和获奖者姓氏的性别和来源,也考虑了是否应该根据最终手稿的某些属性来衡量,如引用的数量等。最终研究选择使用计算生物学术语(MeSH)对176110篇PubMed文章进行分析。根据惯例,通信作者通常是最后一个,因此研究选择最后一个作者作为最合适的作者。图1展示了所有选择的结果,同时研究通过多次改变参数迭代执行来检验它们对结果的影响程度。
2. 研究对象的性别比例
在这一部分作者使用https://genderize.io API来预测获奖者和发表论文作者的性别,该API从网络上收集了超过1亿对姓名-性别对。最终研究观察到女性作者的在比例逐渐增加,同时也可以观察到近年来,ISCB研究员和主题演讲者的性别比例相似(图2,右)。
3. 凯尔特及英文名字的获奖者比例过高而东亚名字的获奖者比例偏低
在这一部分,研究使用在Wiki(2019)数据集上训练的LSTM神经网络来推断研究对象名字的地理区域,这个模型被称为Wiki2019-LSTM。结果发现使用凯尔特语或英语名字的论文作者比例逐渐下降(图3A,左),而大多数主讲人和研究员是凯尔特或英语名字(图3A,右)。而当研究直接将荣誉构成与PubMed进行比较时,可以观察到两组之间的差异(图3B)。此外,也可以观察到与其他名字相比,东亚名字获奖的几率要低得多。
4. 美国相关的获奖者名字过多
这一部分研究分析了论文作者与ISCB获奖者的国家关系,计算了每个国家的log2富集值(LOE)及其95%置信区间。如果LOE值为正,则表明与作者相比,该国家的获奖者比例更高。LOE值为1,则表示观测到的荣誉数量是预期的两倍。结果研究发现与美国和以色列等机构和公司相关的获奖者比例过高,而与中国、法国、意大利、印度、韩国和巴西等关联的获奖者比例过低(图4)。
5. 研究对获奖多样性的改善
在最后一部分,介绍了这个研究在进行后对获奖者多样性的改善情况。研究于2020年1月30日发布了1.0版稿件,如今看来获奖者的多样性有所增加。例如,2020年的12位ISCB研究员和5位ISMB主题演讲嘉宾中,预测获奖者拥有东亚名字的平均概率为33%,高于以往任何一年。同时,获奖者中还包括首位来自中国的ISCB研究员。此外,与往年相比,2020年计算生物学领域的科学家多样性更高。这些新的研究结果表明了值得获得诺贝尔奖的人中包括那些未被充分承认的群体,且研究诺贝尔奖获得者与这个领域的分布是否一致可能会改变并解决不平等问题。
到这里这篇文章的主要内容就介绍完了,可以看出目前国际社会在科研界仍然存在性别和有色人种及地域等不平衡的现象。所以可能需要做更多的工作来提高科研领域中的多样性和包容性。这个问题没有单一的解决方案,需要科研生态系统的各个部分共同努力,推动持久的变化。只有通过有意识地消除性别和国籍等方面的障碍才能释放学术和应用研究的潜力。这篇研究使用数据洞见科研领域,希望能够在全世界提升科研领域的多样性来推动科学发展。
参考文献
1. Analysis of scientific society honors reveals disparities;
2. Nameethnicity classification from open sources;