
注:图片来源于 PNAS 网站
我们都在热火朝天的讨论大模型带来的改变,但再看看自己的研究,好像什么都没改变。这么说也不完全准确,毕竟大模型可以帮我们做英文润色,还能找文献,还能写代码,还能处理数据......
PNAS上的一项研究通过四个测试分析了ChatGPT(GPT-3.5和GPT-4)在科研流程中扮演各种角色的能力,包括作为研究馆员(Research Librarian)、科研伦理学家(Research Ethicist)、数据生成器(Data Generator)和新数据预测器(Novel Data Predictor)[1]。以下是每个测试的设计与结果:
测试1:GPT能写出一个靠谱的研究综述吗?
设计:要求GPT-3.5和GPT-4从25个心理学相关主题中各找出20篇有影响力的文章并综述,这样GPT-3.5和GPT-4就得到了包括500条文献的综述。然后,两位编码人员评估了这1000条参考文献的正确性(评判时分两类,如果参考文献中有捏造或者连作者都弄错,这种属于胡扯;如果参考文献将年份或者期刊名称弄错,这种属于错误)、完整性、主题相关性和引用次数。
结果:
GPT-3.5和GPT-4都会产生虚构的参考文献,但GPT-3.5的比例(36.0%)远高于GPT-4(5.4%)。
GPT-4在提供完整参考文献时,更不可能产生虚构内容。
GPT-4在承认虚构参考文献方面也表现得更好,84.3%的时间会注明参考文献可能是虚构的,而GPT-3.5只有12.2%。
GPT-4在检索相关文章方面比GPT-3.5更成功,尤其是在中等广度的主题上。
结果:
GPT-4在评分中接近科研人员的标准,而GPT-3.5则常常错过问题,有时甚至对不当行为表示赞赏。
设计:作者探索了GPT-3.5和GPT-4在模拟已知科学结果(性别偏见)方面的能力。作者选择了四个广泛研究的性别刻板印象:性别态度(对女性与男性的整体积极/消极态度)、性别与“艺术和科学”的关联、性别与“家庭和工作”的关联、性别与“数学和阅读”的关联。作者向GPT-3.5和GPT-4展示了数千个随机排序的词对,并要求模型估计基于其训练数据的文化关联,例如女性与家庭的关联度高于男性,以及男性与工作的关联度高于女性。
结果:
GPT的估计结果复制了先前研究中已知的总体的性别效应,显示出基于训练数据对女性和男性的文化偏好,以及女性(相对于男性)与艺术、家庭和阅读的更强关联。
GPT的效果通常比先前研究中报告的更强,这可能反映了AI系统在其训练数据中放大偏见的趋势。
这些结果对于GPT在生成词嵌入研究数据方面的潜力是积极的,但也存在一些警告,例如GPT-3.5和GPT-4对相同词对的响应之间的项目间相关性是变化的但中等的。
GPT-4与GPT-3.5相比,并没有在减少偏见方面表现出显著改进,尽管OpenAI努力去偏见化。
设计:检验GPT-3.5和GPT-4是否能够预测未包含在其训练数据中的新模式,特别是对待跨文化的含蓄和直接态度的数据。作者使用一个新的数据集——Project Implicit International Dataset,该数据集包含了来自34个国家的230万参与者的含蓄和直接态度的数据。作者要求GPT-3.5和GPT-4对60种不同的跨文化模式进行预测,包括含蓄和直接的对性取向的态度、对年龄的态度,以及对性别与理科/文科关联的刻板印象。
结果:
GPT-3.5和GPT-4在预测对性取向直接的态度时取得了一定的成功,但在预测对性取向含蓄的态度时则不太成功。
对于对年龄的态度和对性别与理科/文科关联刻板印象,两个模型的预测都未能成功,甚至在内部一致性方面也表现不佳。
GPT在预测新数据方面的能力有限,特别是在预测那些在训练数据中未出现过的数据模式时。
小结
这些发现为未来模型的训练提供了有价值的参考,并表明GPT在某些科学任务中能够成为有用的工具,但不应被误认为具有全能的知识。
ies Research是iGroup Asia Pacific的全资子公司,总部位于新加坡, 利用独创“ies Storyboard” 工具,帮助把科研成果转化为科普文摘,并利用视频或音频 作为补充,最大限度的展示科学发现。帮助建立和运营Facebook、Twitter等国际社交媒体账户,利用社交媒体,在全球范围内分享科学故事,提高研究的知名度和学术参与度。