网络社会年会

第十届网络社会年会|James Steinhoff:提示工程与(非)决定论的政治经济学

文 / 詹姆斯·斯坦霍夫(James Steinhoff)
翻译/ 李易扬
校对/ 仝昭祥 

感谢主办方,感谢幕后工作的同学们,谢谢他们的付出。

首先,我的背景是媒介理论、媒介研究,尤其是媒介的政治经济学。因此这场讲座会在清晨给大家来一点媒介理论,也来一点政治经济学,希望这能让人精神一振。需要说明的是,这不是一场基于我既有论文或研究的报告;而是我根据给我的“提示(prompt)”而创作的讲稿。像一个表现良好的大型语言模型一样,我生成了一份关于“提示”的提示。我认为,现在正是讨论人工智能政治经济学的及时节点。

尽管技术取得了显著的进展,在全球范围内,史无前例的巨额资金正被投入到AI研究当中,但AI似乎并未达到资本的预期——至少它没能创造剩余价值。麻省理工学院研究者今年的一项最新研究显示:在对美国(或可能更广泛地说是全球)300 家公司的分析中,95% 的企业在引入生成式 AI 的投入上获得了零投资回报。也就是说,只有 5% 的企业从生成式 AI 中得到了任何形式的回报。

另一批关于个体层面或团队层面劳动生产率的研究显示:虽然个别劳动者在某些指标上可以提升生产率,但这往往会在编码等类型的工作中降低产出质量。这由此引出了“AI 泡沫”的问题。我也很想知道,这样的讨论在中国是否已经展开,我并不清楚。但可以肯定的是,在西方,过去几个月里,“AI 泡沫”已从边缘或小众评论者的议题,转变为主流商业媒体讨论的话题。核心问题是:围绕 AI 的预期与投资,是否已经超前于其技术能力与可行应用。

在某种程度上说,这是符合现实的。目前,人工智能公司正在将AI代理(AI Agent)作为新趋势来推行。我不知道AI Agent和具有更长期记忆力的大语言模型有什么区别——这还有待时间验证。因此,我想讨论的是,突然变大的AI泡沫,和是否与提示技术——这一我们同AI交互的特殊方式有所关系呢?

不过首先,我想做一点概念/理论层面的讨论,来思考 AI 资本与自动化。在我看来,“自动化”是理解资本的首要视角。马克思对资本的分析将资本描述为一种不死的寄生物,依靠人类的产出为生。此种产出最终会呈现为机器。而这些机器——正如马克思主义者所坚持、并如马克思在《〈政治经济学批判〉大纲》(Grundrisse)中所言——由“活劳动”的被俘获的知识与技能所构成,这些知识与技能被吸纳进了资本之中。

“吸纳”(absorption)这个概念近来对我尤为关键,我也认为它对于思考 AI 与自动化至关重要。此时一个合理的追问是:为何强调自动化?诚然,资本的首要“指令”是价值的自我增殖(valorization),即创造剩余价值。但“吸纳”与“自动化”同样是资本的重要目标。因为只要“吸纳”是实现价值增殖、或至少提升劳动生产率的手段,那么正如出于竞争压力必须不断发展新的生产资料,同样需要发展新的“吸纳”手段,以及“吸纳”的质性逻辑。因而,自动化会随时间而变化,正如生产资料的质性也会随时间发生变化。

我一直在思考“吸纳”如何在质上随时间变化的问题,并在去年发表的一篇论文中有所探讨。其大致轮廓是:历史上,“吸纳”的逻辑主要是一种“捕获”(capture)。但我主张,正出现转向另一种范式的迹象,我称之为“涌现”(emergence),而这一下转向由机器学习所驱动。稍后我会进一步展开,但在此之前,先谈一谈作为产业的AI行业。

在我看来,AI 产业就是“自动化的自动化”的产业。也可以称作“元自动化”(meta automation)。它产出的是机器学习模型;而机器学习模型通过从数据中提取模式来实现对自动化本身的自动化。借助机器学习,人们能够生成一种算法,使机器得以自动执行某项任务。但要把它理解为“自动化的自动化”,就必须采取历史视角。我们需要回到 20 世纪 80 年代那一波 AI 商业化的开端。当时的 AI 并不依赖机器学习,而是建立在“符号主义 AI”(symbolic AI)范式上。在那样的语境里,“吸纳”所涉及的是一种完全不同的、指向 AI 系统生产的劳动过程。

当时有一门叫“知识工程”(knowledge engineering)的东西。这几乎就是通过访谈与各类观察流程,从专家劳动者身上“提取”专家知识。随后,知识工程师会把这份被“捕获”的知识以符号化的形式加以编码,并将其落实到基于规则的专家系统中。这样一来,缺乏相关知识或技能的初级员工或管理者,便可以向该系统发问。也就是说,这是一种将技能字面意义上“捕获并转移到机器上”的过程。

如果把机器学习放到与其对照的关系上来看的话,就会发现机器学习绕开了整个知识工程的流程,转而在数据中的模式基础上,以一种半自动化的方式(a semi-automated manner)来生成算法。这正是我所说“涌现”(emergence)的要义。该过程曾经并仍然被其拥护者誉为通达科学知识的更客观路径。但从资本的视角看,它提供了一种可能性即无需直接从“活劳动”那里捕获知识,也能推进自动化。

我想强调的是,实际情况并非如此简单,机器学习达成“自动化的自动化”的过程并非一帆风顺,也不是完全自动的,各行各业的劳动力依然不可或缺。但我认为,至少质变的雏形已经正在形成。无论如何,自动化是由个别资本之间的竞争所驱动的。每一家企业都必须至少追平、最好超越竞争对手的劳动生产率,才能维持创造盈余的能力。因此,资本内在地具有一种加速的时间逻辑,它力求把劳动时间压到最低。从这个意义上说,自动化关乎“速度”。这一点是毋庸置疑的。

但我还要提出,自动化也包含一种“降低偶然性”(contingency reduction)的逻辑。自动化不仅是为了把劳动生产率这一量化指标做到最优,它也被用来在劳动过程上施加质的改变,以便消除偶然性。于是,自动化既关乎速度,也关乎控制。消除偶然性之所以重要,是因为“偶然性”代表了所有可能让价值增殖放缓、受阻、延迟,乃至完全停滞的路径。

自动化流程往往比非自动化流程更快、更便宜。但也许更重要的是,这些机器不会反叛;更日常点说,它们不会上厕所,对吧?在我看来,源自哈里·布拉弗曼(Harry Braverman)1974 年的开创性著作《劳动与垄断资本》(Labor and Monopoly Capital)的劳动过程理论,为这一切如何运作提供了最出色的理论化路径之一。

不过我最喜欢的一个简练表述来自克雷格·利特勒(Craig Littler)1982 年的一本书(The Development of the Labour Process in Capitalist Societies: A Comparative Study of the Transformation of Work Organization in Britain, Japan, and the USA)。他提出了“劳动潜能的不确定性”(indeterminacy of labor potential)。换句话说,工人是劳动力的蓄水池;而劳动力是“劳动的能力”,并非劳动本身。

从某一特定劳动力来源中实际产出的劳动数量与质量,取决于工人选择付出什么、或被迫付出什么。因此,劳动力本身就是一个显著的“偶然性”来源。从更广的意义上讲,要使价值增殖获得成功,必须在劳动过程之中完成一个时空上的过程,该过程需要协调异质的诸要素与诸行动者——不仅包括劳动者,也包括机器与其他形态的资本。

“最小化偶然性”体现为泰勒制——一整套用于分析、拆解与优化工作执行方式的技术,其趋向是使劳动去技能化,并由此贬低劳动力的价值。正如布拉弗曼所指出的,泰勒制通过把复杂的劳动过程切割为离散任务,为自动化创造了条件;这使得这些任务更容易被移交给机器。

更广泛地看,提高可预测性的努力呈现多样化,例如需求预测、情感分析以及各种由机器学习驱动的预测分析。流通过程中的整个“物流革命”(logistics revolution)是另一个典型例证,它使生产流程以前所未有的复杂度在全球范围内分布。因此,资本对“偶然性”的厌恶,意味着它把世界——甚至把如空间与时间这样的本体论根基——也视为“障碍”;尽管正是这些东西首先为资本的存在提供了可能性条件。

我觉得马克思关于“障碍”的语言非常有意思,这里看两处。《大纲》中,马克思说资本“按其本性超越一切空间障碍”(此处他想到的是交通基础设施的发展)。但他也说,流通时间在实现劳动时间时表现为一种自然的障碍。而且不仅是空间与时间,人也被视为资本的障碍。

我最喜欢的一句出自《资本论》第一卷:资本被一种冲动所驱使,要把人所施加的阻力降到最低——那顽固而又富有弹性的自然屏障。因此,我们可以把这些“障碍”视作一捆“偶然性”。资本总是在把自身投射到一个理想化的未来:在那里,这些障碍被消除,这些偶然性被减少,被管控到某个可接受的可预测水平,或随你怎样称呼它。

批评马克思主义的人常说它是技术决定论的框架。但我觉得我们可以略带“顽皮”地说:马克思主义揭示的是,资本在“生产决定论”——或者说它想要生产决定论、它努力去这么做。当然,同时,资本又通过市场竞争的无政府状态、关键资源的浪费等因素不断破坏这种决定论。所以,就像资本中的多数“倾向”一样(例如利润率下降倾向),这种“生产决定论的倾向”也可以被称为辩证的,因为它内含对自身的反倾向之生成。

好了,政治经济学就先说到这里。你大概在问:提示词(prompting)在这一切中处于什么位置?提示什么?是什么?这是我真正想深入探讨的,而且也是我一边写作一边做的第一次系统梳理。正如昨天有人说过的,提示词是一种对机器学习模型的特定用户界面。

我们应当把它置于“技术对象”的那一类里,类似键盘、鼠标、图形用户界面。更准确地说,提示词是一种“算法性技术”,正如媒体理论家 Burckhardt 与 Reader 近来所说。他们把它描述为:一种融合自然语言、计算机代码与概率性查询特征的“手势”(gesture)。他们还指出,提示词可被视为一种潜在的劳动形态,也是一种编程。因为大型语言模型的架构并未预编某个特定任务,提示词便成为把通用模型适配为所需下游任务的一种方式。

有趣的是,虽然提示词表面上是自然语言接口,但似乎用某些非传统/不那么自然的语言用法能得到更好的表现。你若去搜“如何做好提示词”,常常看到的并不是常规句子。因此,有些业界评论者会说,“提示工程师”是未来的职业(或未来职业之一):这类劳动者的专长,围绕着理解不同模型的特性,并让它们更好地按我们的意愿行动。

我对“提示工程师”的长期职业前景存疑,但那可能是另一个话题。无论如何,如果提示词是一种劳动,那么它之所以有趣,正在于其高度自动化。从马克思主义视角看,与大型语言模型中凝结、沉淀的“死劳动”相比(包括创造它的数据科学家与工程师的劳动,以及所有训练数据中所包含的内容劳动,如学术论文、新闻文章等),提示工程师的“活劳动”相对较少。

模型的训练数据来自科学论文、新闻报道,等等;此外,还有成堆的数据劳动投入到数据准备之中,使其对机器“可读”——比如清洗、标注,诸如此类;可以说,这如今本身几乎成了一门产业。与此同时,只要大型语言模型像其他机器那样被投入到生产过程之中,那么“提示”(prompting)也可被视为资本所执行的一种操作,因为 LLM 能够作为固定资本加以部署。

一旦被用于生产过程,大型语言模型在价值层面就会像其他固定资本那样发挥作用。在其使用寿命内,以分摊的方式把其所“储存”的价值逐步转移到产品之中。当然,作为软件,LLM 或一般意义上的模型并不会像马克思原始理论化的那类传统机器那样以相同方式“磨损、折旧”;但这又是另一个可以展开的话题。

如果你有兴趣,我们完全可以就“软件与价值理论”办一整场会议。回到提示,提示这一动作会令一个自动化系统开始运行,但这是一种颇为独特的自动化。正如我刚才所说,至少在计算机发明之前,机器通常只被打造来自动化某一项精确的任务,其功能由其物理形态所决定——比如钻床就钻孔,织机就织布。而计算机则可以实现任意多种不同程序——这就是软件的“魔法”,对吧?

而 LLM 则能在被提示后生成任意多的输出。此外,提示还会直接促成新的固定资本的形成:就迄今惯例而言,厂商往往会记录这些提示,并在后续把它们用作进一步的训练数据。从不同角度来看提示,还有一件颇为奇特的事:提示本身也可以成为一种商品。也许很多人并不了解,如今已经出现了“提示市场”,你可以直接去购买提示。

这对我而言还是新鲜事,但确实存在诸如 PromptBase 或 ChatSonic 这样的网站。你可以去查查看。在这些平台上,你为某个特定的字符串付费,把它输入到某个模型里,以获得某种预期输出。这对我来说非常离奇,我也不太明白它究竟如何运作。我不知道是谁在购买这些东西,我还需要进一步了解。如果有人知道,也很想听听是谁在买。不过无论如何,我认为这更让“提示工程师作为长期职业选择”的可行性问题,变得值得怀疑。

至少可以肯定的是,提示工程师无论如何都要与“提示商人”竞争。现在,我们或许可以转到媒体理论的视角,来考察提示究竟如何运作。我在研究这一问题时心里冒出的其中一个疑问是:为什么提示在本质上是概率性的——正如 Burkhardt 与 Reeder 在那一定义中指出的?为什么输入同一个提示给一个模型 15 次,甚至 4、5 次,你都不会得到完全相同的输出?为什么会这样?

我们通常把数字媒介与计算机视为相当确定论的系统:它们的算法,按定义讲,是系统所遵循的一系列严格规定的步骤。那么,为什么 LLM 并不“可预测”或“确定论”呢?当然,我并不会假装自己完全掌握其中的技术细节——我并不是计算机科学家。但我会尽力把我所理解的内容准确地传达给你。

因此,提示之所以带有概率性,部分原因来自生成模型作为一种“存储介质”(storage medium)的性质。就像所有机器学习中的生成模型一样,它们都涉及某种压缩。正如 Felix 昨天提到的“降维”:核心思想是,模型必须比它的全部输入数据更小——否则又有什么意义?如果和原始数据一样大,那不过是在做检索罢了。

因此,模型就是一种压缩。它会“丢弃不重要的东西”,这就是理念。你可以把这看成一个“瓶颈”。在学习过程中,数据进入模型,以一种不会破坏关键信号的方式被表示,这样我们才能通过提示把这些关键信号再“取出来”。这个中间的压缩步骤就是所谓的“潜在空间”(latent space)。

我认为,把 AI 模型视为一种压缩媒介的视角还远未得到足够重视。沿着这个思路想下去,我开始考虑,我们是否需要把生成式 AI 放进“压缩技术史”的脉络中来审视。媒体理论家 Jonathan Sterne(他最近去世,长期在加拿大魁北克的蒙特利尔工作)在 2012 年写过一本关于 MP3 文件格式的书,名为《MP3:一种格式的意义》(MP3:The Meaning of a Format)。

在那本书里,他提出,我们需要建立一种媒体史的替代叙事,与其将历史描绘为“对真实世界的再现越来越逼真”的轨迹,不如把它理解为“数据压缩技术日益复杂精巧”的演进。对于这一点我还没有彻底想清楚其全部含义,但我觉得值得先抛出来,因为这可能是理解 AI 的一个富有启发性的路径。或许再过几年,会有更多成果。

这里我们可以看到一个“潜在空间”的可视化,它是一个 n 维的虚拟空间。之所以称为“潜在”,是因为空间中的每个维度对应于原始数据中的一个潜在变量。潜在变量是影响数据如何分布的底层特征,但在原始数据里未必能被直接观测到。你可以把潜在变量理解为那些现有分类标签无法捕捉的“结构性模式”。据此来理解,LLM 的概率性有一种解释方式。当模型“寻找答案”时,它在潜在空间中“伸展”的距离有多远,部分决定了它的概率性表现。

这种“向外伸展”的幅度由一个名为“温度(temperature)”的参数来界定——昨天我和 Nick 还就此讨论过。温度设得越低,模型对同一提示的回应就越不随机;温度越低,不确定性越小,对吧?反之,如果温度很高,模型会把“很可能的输出”和“很不可能的输出”看得更接近,于是生成的结果就更杂乱、更多变。那么把温度拧到零,是否就能让它以一种“非概率”的方式运作呢?

很多人都这么认为,但其实并非如此。概率性的来源还有更深的一层,而这已经超出了我在此能完全把握的范围。关于这种不确定性从何而来,较为通行的一种理论被称为“并发性加浮点数假说(concurrency plus floating-point hypothesis)”。它粗略地说,来自推理过程中计算的并行特性,以及在实现这些计算时对浮点数进行舍入的必然性。

简而言之,这意味着在模型内部,某些计算会因多种因素以不同次序被执行,而浮点数的舍入方式会带来细微差异,进而导致略有不同的输出。无论如何,要点在于LLM 的非确定性,根源于这套底层基础设施。但我们也可以注意到,这种概率性的底色,恰恰构成了它的吸引力,它让模型看起来不那么“机器化”,并不会总是给出一模一样的回答。

这种情境性与自发性,会让交流有时近似与人对话的感受。它在某些用途上也很有价值,比如头脑风暴、进行多轮迭代等。不过问题随之而来,这是否足以让资本接受?毕竟,如我先前所言,资本往往试图消除偶然性,或至少将其最小化,并尽可能生产确定性。那么,资本为何会在一种看上去在机理上就带有偶然性的技术上进行重注?这当中的张力,值得认真追问。

现在,大语言模型产业的评论者们普遍认为,非确定性是一个有待解决的困难。但在我看来,直到在过去一两年间,它才明确地被当作一个问题来处理。有时,这个问题会用科学术语来提出,一位评论家说,可复现性是科学进步的基石,但从大型语言模型中获取可复现的结果却十分困难。

可复现实验是科学的基础。因此,在用大语言模型进行科学研究时,LLM 为此设下了一个相当大的障碍。不过,这个问题也可以用商业术语来表述。下面这段来自一个大语言模型行业评论博客的观点:从商业角度看,LLM 的非决定论引发了不少担忧——评估失灵、调试失败、合规风险、金钱浪费、训练不稳定,这些都相当有力。

第三点“合规风险”也许给出了问题最简明的表述。你无法保证 AI 行为的一致性。正如他指出的,这会影响监管合规、基准测试、调试等各个方面。贯穿这些理由的共同症结是缺乏可预测性。总体来看,这是一种令人不安的偶然性的展演,意味着企业无法保证这些机器的性能,而他们的商业模式要么建立其上,要么试图将其出售——无论哪种情况都是如此。

一家名为 Thinking Machines 的美国 AI 公司最近声称,他们已经在一份报告中解决了这个问题,而且他们直接把这份报告命名为《在 LLM 推理中击败非决定论》(Defeating Nondeterminism in LLM Inference.)。这份报告就是上个月发布的。他们进一步论证说,事实上可以战胜这种基础设施层面的概率性。我甚至不打算尝试解释他们做了什么,我也不理解。但关键是,他们声称已经修复了这个问题。

他们的做法是,用一个相对简单、定制打造的大语言模型,使其能够以确定性的方式输出响应,完全没有任何变动。也就是说,从理论上你确实可以这么做,但有趣的是,这付出了巨大的代价:推理时间增加了 62%——也就是生成输出所需的运行时间增加了 62%。而这当然意味着 62% 更多的计算力和能源消耗。可以想见,未来大概还能做一些优化,但这已经在暗示,对于 AI 企业来说,经济核算将出现一个全新的维度。

对机器学习而言,其性能似乎和计算资源、训练数据成正比,数据越多,算力越强,模型就越稳健,也许这个趋势不会延续下去,但目前为止还是如此。这意味着,AI开发面临着一项经济核算上的难题,必须在模型的预期性能,和数据获取处理、模型训练、界面运行的成本之间进行权衡。而非确定性,过去一直被默认为这个等式中不可或缺的一部分。

但现在,如果 Thinking Machines 提供的结果是可信的,这就意味着在这个问题上必须再增加一个维度,在确定性的精度与降低偶然性所付出的成本、以及推理开销之间做权衡。于是人们可能会问,让大语言模型变得完全确定,能否阻止 AI 泡沫破裂?也许吧。

不过,OpenAI 研究者 Kalai 等人的一篇新文章给出了不同的看法——另一个层面的偶然性似乎存在于推理过程之外。Kalai 等人关注的是“幻觉”。这个话题昨晚也提到过。所谓“幻觉”,就是 LLM 自信输出的错误答案。关于幻觉的关键在于即便模型实际上并不知道某个答案,它也倾向于猜测,去抓取潜空间中某个看似可信的点,即便你明确要求它“只有在确知答案时才回答”。

作者们讲述了一个有趣的例子,他们向模型查询第一作者博士论文的信息,并且加了一句“只有在你确实有信息时才告诉我们”。他们对三个不同的 LLM——ChatGPT、DeepSeek 和 Llama——都做了这一测试,每个模型都给出了错误且带有幻觉的回答。于是,报告作者进一步断言,即便训练数据完全无误,语言模型训练中被优化的目标也会导致错误,也就是幻觉的产生。而在他们看来,这源自大语言模型生产的一个“社会性维度”。

更具体地说,他们认为这源自用于测量或基准测试 LLM 表现的考试本身的性质。这类考试往往采用二元指标,也就是对或错,从而惩罚不确定性。结果就是,模型在长期优化中会倾向于去猜测、偶尔答对,而不是在面对某个特定提示时直接承认不确定或无知。他们给了另一个例子,让 LLM 只在“确信知道”时提供第一作者的生日。模型多次答错,但它始终自信自己掌握了答案。

因此,如果这种分析成立,那么看来围绕生成式 AI 生产的社会技术实践,正在教这些模型去“佯装”、去试图隐藏其结构中固有的偶然性或非确定性。而且,这并不是一个容易修复的问题。研究作者进一步解释说,根本问题在于评测的泛滥与错位,也就是大量评测并不对齐。

设想模型 A 是一个“对齐”的模型,它能正确标示不确定性、从不产生幻觉。模型 B 与 A 类似,但它从不表明不确定性,在拿不准时总是硬猜。在二元评分之下——而这正是当下大多数基准的基础——模型 B 会跑赢模型 A。于是,这就造成了一种对不确定性与选择性不回答的系统性惩罚流行病。

因此,核心观点是整个 LLM 评估生态本身才是问题所在。它无法靠零碎修补来解决,而必须整体性重构,因为在二元指标上,“幻觉”反而更能拿到更好成绩。看起来,偶然性在 LLM 中不仅源自其架构层面的技术因素,还植根于那些衡量并赋予其合法性的社会技术实践之中。

最后,我当然不会去预测未来。我只是希望指出,提示工程的政治经济学必须直面“确定性与偶然性”的问题,而且这二者同时具有技术层面与社会层面的维度。谢谢。

提问环节

Q1:谢谢你精彩的演讲,James。我很喜欢你把“提示”视为劳动的观点,我觉得这很有说服力。正如你提到的,参与这项劳动过程的人群很多:有数据科学家、也有做标注的数据工人。我的问题是关于他们内部的动态。如果结果是不可预测的,而我们又想提升模型、数据或结果的质量,能否引入某种审计实践或审计系统?如果可以,在哪个环节更可行开展这种审计,以改进输出质量?不确定我有没有把问题说清楚。

A1:我觉得这正是最后那项研究试图指出的,甚至在谈审计之前,模型的性能评测与基准流程本身就在朝着“幻觉”方向优化——它在主动驱使模型产生幻觉。按照我对那项研究的理解,审计更像是手臂被撕裂之后再贴创可贴。也就是说,事后补救的审计无法纠正这个问题,因为系统被教导的、被偏好选择的路径本身就是如此。所以,如果我正确理解他们的论点,审计解决不了这个问题。

审计无法“去除”幻觉;它或许能通过划定某些不期望的表现、加一些护栏之类的方式来提升部分性能。但幻觉之所以顽固,似乎正因为在现行框架下它往往“更有效”。我想他们的论点是必须更换评测指标,而且需要全行业协同一致。因为任何单方面将优化目标从“允许幻觉”转向“避免幻觉”的行为,可能都会让模型在既有二元评分下表现更差,进而没人愿意采用。那么,在这种情况下,为什么会有人去做这样的改变呢?

Q2:谢谢你,James。我赞同昨天Felix的观点。模型在100%的时间里都会“幻觉”。对此并没有出路,因为它们只使用内部信息,就好像我们只有头脑里的想法,而没有任何感知一样。你从技术角度审视决定论与非决定论的问题,这一点很有意思。这里有好几层需要区分。首先,“有损压缩”并不意味着必须是非确定性的。比如,压缩或解压一张JPEG图片本身并不需要非确定性的,你在电脑上全屏打开同一张JPEG图像,反复做十几次再分别截图,像素级对比会完全一致。因此,仅就“有损压缩”而言,并不会导致非决定论。

但我认为,决定论或非决定论根本不是关键所在。正如Felix指出的,以金融模拟为例,它们也许是非确定的,但你可以设定一个阈值,来决定何时把某个命题当作“足够真”。比如,当概率超过80%,就意味着你应该卖出手里的股票。同理,天气模拟也是如此——这既可以用于新闻播报,也可以用于你是否要带把雨伞。我们对这类计算型、非确性定的模拟,其实已有很多成熟的理解与使用方式。

我觉得真正的问题在别处——这也有点“讽刺”,因为你是从政治经济学的角度切入:问题在于我们都在使用不透明的、公司专有的模型。以ChatGPT 5为例,我们甚至不知道其底层LLM有多少参数,不知道它训练于何种数据,而且它还在持续变化中——时时刻刻都在变。

因此,如果我们想把它用于科学实验,今天手里的模型到了下周就不再相同。与之相对,如果是一个非确定性的天气模拟,只要我们用的是同一个模型,仍然能进行科学使用。可见,症结不在于非决定论或概率本身,而在于这些模型被企业行为体所控制,并且被隔离、被不透明地封存起来。

这部分内容还需要更多时间来阐述,但我想提出这个问题——因为我认为,这恰好能将讨论引入您擅长的批判领域。我好奇,从政治经济学的视角出发,您会如何看待这一视角?

A2:关于“被有意置于黑箱中的不透明”,我完全同意——这是一个重要方面。但我也认为,这些模型的非确定性对试图把LLM商品化的人来说确实很棘手,尤其是在“Agent式AI”兴起的语境中——理论上你要把各种业务流程委派给这个代理。如果有人要买你的代理,并且说:好的,接管公司信用卡,去规划我们的物流操作,发邮件之类的——大概若要售卖这类商品,就会面临这样的场景。

令我反感的是,在讨论人工智能时使用”信任”这个词,因为我认为本就不该信任它。但若想销售这类产品,客户和卖家都必须对其建立信任。眼下厂商唯一能对客户说的是:”请相信我们,别担心,它大体是可靠的。”可系统难免出现失误,我们知道这种情况一定会发生,而且无法解释故障的根源——因为系统内部的运作就像谜团一样。

Q2:是的,我觉得“把信用卡交给一个系统去做物流”这个比喻很有启发。不过在金融科技里,这些机器手里拿的是额度极高的信用卡,而且它们完全依据概率性的判断进行买卖。

A2:确实如此。我想这里还需要区分不同应用领域,各有不同需要讨论的点。

Q3:提示工程师会成为处理提示、对付幻觉与非确定性的一线劳动者。你也提到了,他们不仅会被这类工作束缚,还会被幻觉等效应所束缚。就你的研究类型来看,长期来说,如果他们无法离开这类岗位,你认为他们在寻求更多自由方面是否还有可能性?

A3:我本人没有做过关于“实际使用生成式AI的人”的研究,因此没有一手的实证洞见。我的实证研究更多是针对构建AI系统的人,而非真正使用它们的人。所以我没有直接的见解。但我觉得有一点值得注意,正如Felix所说,在某种意义上,所有生成式AI的输出都是“幻觉”。我会说,所谓幻觉是相对于你希望它完成的任务而言的。

如果你要它生成一个关于某个想象主题的图像,那就没问题——“幻觉”根本不成其为问题。只有当你让它检索一个确定事实,而它却说“好的我找到了”,然后对你“撒谎”,这才令人担忧。我想这正是令商业界和科学界不安的地方,因为这意味着它不可用。你不能指望生成式AI去产出——我犹豫是否该用“真相”这个词——但总之,它并非以同样的方式在做信息检索。这不是一个很好的答案,我们之后再聊吧。

Q4:这个问题可能也不太让人满意,但归根结底,资本在乎“质量”吗?

A4:不在乎。但资本在乎把商品卖出去。而在一定程度上,商品必须达到某个“可接受的商品化水平”,否则人们觉得没用,也就不会买。所以它在乎的是消费者能接受的“最低质量线”。

Q4:我一直在想,我们好像在“造机器来修机器”。每加一层机器,似乎都要多出……我也不知道,62%的工作量。尤其在金融科技之类的场景里,规模如此之大,如果每个提示都要多62%的成本,到了某个点,你不如直接用一个传统算法,而不是用大型语言模型。

A4:如果让我预判一个结果,那就是会出现一轮“筛选”,把哪些生成式AI应用是真正可行的筛出来。现在很多被提议的应用挺荒诞,根本行不通,因为这些系统天生就有“幻觉”问题。对一半、甚至更多的问题,为什么不直接用搜索算法去找答案呢?这些“荒诞”的应用在泡沫破裂时,大概会被一锅端。

讲者介绍

詹姆斯·斯坦霍夫(Jame Steinhoff)

詹姆斯·斯坦霍夫(James Steinhoff)博士现任都柏林大学信息与传播研究学院助理教授,他深耕于人工智能、数据与数字媒体的政治经济学领域,是该领域颇具影响力的学者。其专著《自动化与自主性:人工智能产业中的劳动、资本与机器》(帕尔格雷夫出版社,2021年)及合著《非人的力量:人工智能与资本主义的未来》(普鲁托出版社,2019年)已成为该领域重要文献。