ChatGPT改变了你的研究吗?
创始人
2026-02-02 21:27:03

注:图片来源于 PNAS 网站

我们都在热火朝天的讨论大模型带来的改变,但再看看自己的研究,好像什么都没改变。这么说也不完全准确,毕竟大模型可以帮我们做英文润色,还能找文献,还能写代码,还能处理数据......

PNAS上的一项研究通过四个测试分析了ChatGPT(GPT-3.5和GPT-4)在科研流程中扮演各种角色的能力,包括作为研究馆员(Research Librarian)、科研伦理学家(Research Ethicist)、数据生成器(Data Generator)和新数据预测器(Novel Data Predictor)[1]。以下是每个测试的设计与结果:

测试1:GPT能写出一个靠谱的研究综述吗?

设计:要求GPT-3.5和GPT-4从25个心理学相关主题中各找出20篇有影响力的文章并综述,这样GPT-3.5和GPT-4就得到了包括500条文献的综述。然后,两位编码人员评估了这1000条参考文献的正确性(评判时分两类,如果参考文献中有捏造或者连作者都弄错,这种属于胡扯;如果参考文献将年份或者期刊名称弄错,这种属于错误)、完整性、主题相关性和引用次数。

结果

  • GPT-3.5和GPT-4都会产生虚构的参考文献,但GPT-3.5的比例(36.0%)远高于GPT-4(5.4%)。

  • GPT-4在提供完整参考文献时,更不可能产生虚构内容。

  • GPT-4在承认虚构参考文献方面也表现得更好,84.3%的时间会注明参考文献可能是虚构的,而GPT-3.5只有12.2%。

  • GPT-4在检索相关文章方面比GPT-3.5更成功,尤其是在中等广度的主题上。

测试2:GPT能提醒科研人员正确使用统计显著性吗?

结果

  • GPT-4在评分中接近科研人员的标准,而GPT-3.5则常常错过问题,有时甚至对不当行为表示赞赏。

测试3:GPT能从数据中复现科学中的性别偏见吗?

设计:作者探索了GPT-3.5和GPT-4在模拟已知科学结果(性别偏见)方面的能力。作者选择了四个广泛研究的性别刻板印象:性别态度(对女性与男性的整体积极/消极态度)、性别与“艺术和科学”的关联、性别与“家庭和工作”的关联、性别与“数学和阅读”的关联。作者向GPT-3.5和GPT-4展示了数千个随机排序的词对,并要求模型估计基于其训练数据的文化关联,例如女性与家庭的关联度高于男性,以及男性与工作的关联度高于女性。

结果

  • GPT的估计结果复制了先前研究中已知的总体的性别效应,显示出基于训练数据对女性和男性的文化偏好,以及女性(相对于男性)与艺术、家庭和阅读的更强关联。

  • GPT的效果通常比先前研究中报告的更强,这可能反映了AI系统在其训练数据中放大偏见的趋势。

  • 这些结果对于GPT在生成词嵌入研究数据方面的潜力是积极的,但也存在一些警告,例如GPT-3.5和GPT-4对相同词对的响应之间的项目间相关性是变化的但中等的。

  • GPT-4与GPT-3.5相比,并没有在减少偏见方面表现出显著改进,尽管OpenAI努力去偏见化。

测试4:GPT能预测人类对特定事务的态度吗?

设计:检验GPT-3.5和GPT-4是否能够预测未包含在其训练数据中的新模式,特别是对待跨文化的含蓄和直接态度的数据。作者使用一个新的数据集——Project Implicit International Dataset,该数据集包含了来自34个国家的230万参与者的含蓄和直接态度的数据。作者要求GPT-3.5和GPT-4对60种不同的跨文化模式进行预测,包括含蓄和直接的对性取向的态度、对年龄的态度,以及对性别与理科/文科关联的刻板印象。

结果

  • GPT-3.5和GPT-4在预测对性取向直接的态度时取得了一定的成功,但在预测对性取向含蓄的态度时则不太成功。

  • 对于对年龄的态度和对性别与理科/文科关联刻板印象,两个模型的预测都未能成功,甚至在内部一致性方面也表现不佳。

  • GPT在预测新数据方面的能力有限,特别是在预测那些在训练数据中未出现过的数据模式时。

小结

这些发现为未来模型的训练提供了有价值的参考,并表明GPT在某些科学任务中能够成为有用的工具,但不应被误认为具有全能的知识。

ies Research是iGroup Asia Pacific的全资子公司,总部位于新加坡, 利用独创“ies Storyboard” 工具,帮助把科研成果转化为科普文摘,并利用视频或音频 作为补充,最大限度的展示科学发现。帮助建立和运营Facebook、Twitter等国际社交媒体账户,利用社交媒体,在全球范围内分享科学故事,提高研究的知名度和学术参与度。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

越南签证一般签多久 随着中越往来日益密切,前往越南旅游、商务的人群不断增多,“签证能签多久”成为不少人关注的核心问题。事...
原创 李... 李亚鹏王菲为什么离婚?2005年7月28日,李亚鹏和王菲领证结婚。那时候的王菲,是天后级的人物,而李...
康隆达跌2.59%,成交额15... 来源:新浪证券-红岸工作室 2月2日,康隆达盘中下跌2.59%,截至09:35,报35.78元/股,...
荣县仁新陶瓷:土陶制品领域的品... 在土陶制品行业,荣县仁新陶瓷有限公司凭借其规模化生产能力、技术工艺优势及市场认可度,成为行业备受关注...
国泰海通临港创新产业园REIT... 国泰海通临港创新产业园REIT01月20日大宗交易平台共发生1笔成交,合计成交量150.00万股,成...
昆明力标十里蓝山售楼热线_二月... 力标十里蓝山开发商电话:0871-63635335【售楼中心】 金牌置业顾问:15025182832...
阿根廷经济部长Luis Cap... 阿根廷经济部长Luis Caputo:阿根廷并不考虑在全球债券市场融资。
原创 对... 2025年下半年,南美玻利维亚政局一变,新总统罗德里戈·帕斯上台没几天,就把和中国企业签好的锂矿大单...