OpenAI 的一项研究表明,尽管人工智能技术取得了巨大进展,但最先进的语言模型在回答事实问题时的成功率远低于预期。
该研究采用了SimpleQA基准测试,其中包含4,326个问题,涵盖科学、政治和艺术等多个领域,每个问题都有明确的正确答案。
经过两名独立评审员的验证,结果显示,OpenAI最好的模型o1-preview的准确率仅为42.7%,而GPT-4o略低,为38.2%。GPT-4o-mini的准确率甚至更低,仅为8.6%。相比之下,Anthropic的Claude模型表现更差,Claude-3.5-sonnet的正确率仅为28.9%。
研究人员强调,用户在使用这些模型时,应将其视为信息处理工具,而不是完全依赖的知识来源。为了获得更准确的回答,最好为AI提供可靠的数据,而不是单纯依赖其内置的知识。
值得注意的是,AI模型往往对自身能力估计过高。当被要求对回答进行信心评分时,它们通常会给出夸大的准确性评分。在重复回答相同问题的测试中,即使模型多次给出相同答案,其实际成功率仍低于自我评估的准确性。
这与外界对语言模型常常产生荒谬回答却显得信心满满的批评一致。
研究者认为,当前的AI系统在事实准确性方面存在明显的缺口,需要进一步改进。他们还提出了一个开放性问题:AI在回答简短事实问题的表现是否能预测其在处理更长、更复杂回答时的表现。为了支持更可靠的语言模型的开发,OpenAI已将SimpleQA基准测试的资料公开发布到Github上。