AI与摄影
《中国摄影家》杂志编者按:
法国历史学家布罗代尔指出,作为一种历史演化的主导力量,技术对人类文明的发展有根本性的影响,技术总会从总体上决定特定时代的艺术面貌和内涵,但艺术也有超越技术逻辑的独立性。当下,人工智能技术突飞猛进,新一轮以算力为核心的技术革命或在未来催生出新的艺术形态,甚至颠覆今天我们对“艺术”“艺术创作”“艺术作品”的理解。人工智能技术同样给摄影带来了新的挑战与冲击,引发了摄影界的热烈讨论。面对AI技术的快速更迭,有人欢呼于新的制像手段的诞生,也有人忧心于技术扼杀创造力,担忧AI影像将取代摄影。
历史地来看,摄影从没有回避任何一次技术进步。一方面,作为摄影的本体属性之一,技术性要求摄影随着技术逻辑的演进,不断拓展自身疆界,进行自我更新。另一方面,坚守摄影本体,厘清AI影像与摄影的关系,探索AI技术给摄影的创作、接受、传播以及教育等带来何种新变,思考摄影的本体何在以及围绕摄影所形成的文化与知识、精神与气质有何独特性,也是题中之义。鉴于此,本刊策划了“AI与摄影”专题;刘杨以“图像”为基点,在理论层面辨析AIGC图像与摄影;海杰结合自身的实践经验探析AI生成图像的底层逻辑;吴毅强梳理了国内近年来的AI影像创作,思考AI介入当代影像艺术创作的方法与路径;杨莉莉结合教学实例讨论了AI所引发的摄影教育的变革。本刊诚挚欢迎对相关议题有兴趣的读者撰文参与研讨,期待您的投稿(投稿邮箱为zgsyj@chinaphoto.net.cn)。
幽灵理论与图像堆叠
法国摄影师纳达尔在《我的摄影师生涯》这本书里提到了作家巴尔扎克对摄影的理解,“所有的肉体都是由一层一层的幽灵般的图像组成,由无数叶子般的皮肤层层叠加而成”,“重复曝光意味着不可避免地要失去这样的一个幽灵层,也就是生命的本质” [1]。在巴尔扎克看来,摄影这样基于客观对象进行拍摄的行为,是将由无数叶子构成的肉体的灵光给去除掉了,身体在巴尔扎克的“幽灵说”里变成了一个图像的叠加体。巴尔扎克的看法意外地呼应AI图像的生成逻辑,即“一层一层的幽灵般的图像”“无数叶子般的皮肤层层叠加”。AI这样的数字幽灵,正是通过这样的材料单元和工作方式,在大模型里接受文字指令,进行叠加、渲染,最后生成图像。所有生成的启动媒介,都是文字,这也反证出巴尔扎克作家身份之于AI生成逻辑的契合,他通过文字思维来理解图像的生产,AI也正是如此。关于“幽灵理论”,德里达也曾不断阐述,但其幽灵理论更多是指向电影,他甚至认为电影就是一个“鬼魂归来”的艺术。而本文提及巴尔扎克的“幽灵理论”,一方面是想说明这种基于新媒介的担忧情绪,是与当下人们对AI的紧张情绪相对应的,另一方面是想回到文字的逻辑里理解图像的生成。
在AI生成技术面向大众的2023年里,它收获了惊喜,也遭遇了诟病,惊喜的是AI意外的制图能力,而其遭人诟病的原因,除了在于人们忧心其学习能力和主体意识的形成之外,还在于人们指认其缺乏情感。这种忧心和指认之间的悖谬,反映出人对媒介和其使用者的剥离和对AI的全能索求。事实上,所有的媒介都是中性且没有情感的,它们不会说话,也不会主动表达。我们通常在媒介里看到的情感,是媒介的使用者通过媒介释放出的某种情感。
一、图像观看经验
AI生成图像所能够利用的是记忆与经验,“/ imagine:”指令框调动的正是人们遗落和丢失的东西,所以“/imagine:”的动作,既是勾起,又是找回,以此让记忆和经验在当下的数据语境里重生。
首先,我们得面对关于真实的经验以及真实的创伤经验,这是图像观看经验的前提。人们理所当然地认为摄影图像是现实的等价物,但正是图像的工具化,使得图像在社会的运作中产生了分化,衍生出权力和意义。如约翰·塔格(John Tagg)所言,两者“建立了互惠关系”,意义(知识)塑造权力,而权力制造新的意义。在塔格看来,“照片证据所属的政体,是以管理和话语的复杂重构过程为特征的,它取决于生产和占有的权力及优势与生成意义的负担之间的社会分化。”[2]经由这样的互惠过程,摄影所制造的图像形成了新的话语和体制形式。所以,考察这样的图像,必须考察它的叙事主体(拥有者,或者阐释者)。真实的容貌面具遭遇揭秘,人们长期以来达成的对真实的共识,却带给了自己如同情感背叛一样的创伤经验。我们在理解“等价物”之初,就已经做出了一个注定要受创伤的动作,也即是说在这个逻辑链里,我们把作者切割掉了,只保留了相机和现实世界的等价关系,而正是作者,使我们得以节制这种对于客观真实的强烈热忱。
当我们观看那些由“无数叶子般的皮肤”组成的身体与图像时,我们也应该如此观看那些由“无数叶子般的图像”组成的AI图像,只有将其从“真实”中打捞出来,我们才可以卸掉重负,在较为轻松的观看行动里识别和重构新的图像经验。艺术家方政在其作品《截断》里有意混淆了现实图像与AI图像的边界。他用手机拍摄了疫情期间及之后的很多日常图像,以及其他现实景观,然后将这些手机生产的图像投喂给AI生成器,辅以文字指令,生成出新的AI图像,最后打印在拍立得相纸上。在展览现场,尺寸小巧的物质化图像被完全打乱后,观众已经难以分辨出手机拍摄的图像与AI图像之间的区别。方政将一个常常被忽略的知识盲区通过AI生成与摄影并置的形式展示出来,从媒介发展的角度来讲,方政展示的是两种媒介岩层里的积液。
二、AI图像生成与视觉养成
在AI图像的生成过程中,除了底层大模型的数据储备之外,AI指令需要调动的碎片要么来自记忆,要么来自图像经验。脑神经的机敏度、对于记忆的调取能力,以及图像经验里的归纳和统筹能力,无时无刻影响着AI指令的文字结构,而图像经验来自大众文化、艺术史、自然现象及社会事件,在“无数叶子般的皮肤层层叠加而成”的生成场景里,这些经验被调动和组织。
笔者曾生成过许多个孤舟在游泳池中停泊的景象,其中一张(图4),是一个穿着宽大西装的中年男子和一个穿着露背装的年轻女子背对镜头坐在泳池中的孤舟上的场景,静默而暧昧。追溯起来,这幅作品大致可以找到如下图像经验:艺术家杨福东的摄影作品《客再遇 》第3号,拍摄了两个穿水兵服装脸上有伤的男子坐在孤舟的两端,而面容优雅的女子坐在孤舟中间的场面;在翁奋的作品《看湖》中,几个穿着学生裙的女中学生待在独木舟上望着河对岸裸露出地面的山峰;冯立的作品《白夜》用强力闪光灯俯拍了一家三口在公园湖中划孤舟的场景;在严明的新作《绿野仙踪景区》中,一对情侣在漂满绿藻、周围有树的网红景区划着孤舟;在荒木经惟《感伤之旅》中,阳子蜷缩着身体趴在独木舟上小憩;在日本导演小林正树的电影《怪谈》中,一名日本男子站在独木舟头划船,而女子坐在船尾侧头望向湖水中,昏黄的电影光推进着诡异而不安的气氛;加拿大艺术家彼得·多依格(Peter Doig)画作中也频繁出现红色独木舟……这些构成了一个图像经验的微型数据库,主导了笔者的AI图像生成的视觉养成,在众多数据中,“孤舟”被提取为图像剧场中的主导元素。
艺术家有自己的创作脉络。武汉艺术家组合李郁&刘波的《2012新闻肖像》沿用他们以往的创作思路,在过去的创作中,他们以武汉当地报纸上的一些惊悚而怪诞的新闻为依据,找临时演员,现场布景和布光,进行拍摄。在《2012新闻肖像》中,他们依然以旧报纸上的新闻为底本,将这些新闻编辑成指令,在AI生成器中生成新的图像。AI生成器于他们而言,与他们之前的创作脉络一致,只是它更加快捷且低廉。
此外,历史图像也成为艺术家使用的视觉资源和叙事线索。艺术家傅为新的作品《本杰明之后》使用AI来模拟考古,该系列作品分为三个板块:“消亡史”“本杰明之后”“假设的艺术”。艺术家以一个已经灭绝的物种—袋狼—为线索,结合部分真实史料,想象并生成了三个板块的图像故事:第一个板块讲述了袋狼本杰明消亡之前人类的所作所为,第二个板块讲述了消失后人类试图利用基因对它进行克隆的努力,这个故事最后以袋狼作为一个符号与艺术史和消费社会结合的场景作结。
三、AI底层架构师的文化设定
从过往的AI生成经验来看,中国的数据在其中占比极少,无论是地理地貌、风土人情,还是人种的面孔结构、服饰装扮,甚至是工种、食品、建筑或者乐器等都会在生成的过程中令创作者大费脑筋。数据的占比也使得中国文化在AI的语境里遭遇边缘化。在大部分情况下,即便我们在指令里加入“中国”或“中国人”等文化限定词,也多半会滑入“泛东亚”的文化圈。这就使得我们在AI生成过程中,需要不断地投喂图像数据,以达到适度的平衡,这也逼迫我们要在生成的过程中揣摩AI底层架构师的文化设定。
就目前流行的AI生成器来说,ChatGPT这样的文字性生成器还允许使用汉语,这至少保证了适度的语言环境,而AI绘图Midjourney和Stable Diffusion则无一例外地使用英语,虽然后者的理想操作是下载模型,进行本地训练,但指令还是会在转译的过程中损失其文化表达的准确性。以英语为母语编码数据、编写算法规则和语言程序的AI工程,在底层架构师的文化设定和价值构建里,依然秉持着既有的国际差异眼光和权重。
笔者曾经生成了一张图像《AI双胞胎姐妹》,在这幅图像中一对穿着红色衣服的中国西北双胞胎女孩,坐在停放在西北戈壁滩上的卡车上,女孩的表情、发型和穿着符合中国人的普遍性审美,不具有AI生成惯性中的时尚模特的商业化属性。后来,笔者将这幅图像在Midjourney里进行“/describe:”的指令操作,生成器根据上传的这张图像输出4条不同的文字描述,再根据这4条文字分别生成4张图像。这个过程中,笔者试图通过反向操作来反推AI图像生成中的逻辑习惯和文字描述的权重与规则,并且有意去测试AI图像生成中的记忆与识别性,即由它生成的图像是否还粘连着最初的文字信息,以及测试在反向“/describe:”生成文字的过程中,这些信息在多大程度上脱落。从中,我们可以间接地观察到“图生文”和“文生图”的反复生成过程中的基因变异,并通过“反侦察”的方式试图接近底层架构师的设定逻辑。
从测试情况来看,由这张图像生成的四条指令从一开始就将人物判定为亚洲女性,接着寻找风格与之相对应的艺术家的作品。在第四条指令里,AI生成器做出一个安全的指涉,指出这张图像与韩流、日本古典风格以及中国当代艺术等有相关性。然而,当我将4条指令分别输入,生成的四张图像时,情况已然失控—原来朴素的双胞胎变身为坐姿职业化、面容国际化且商业属性浓烈的时装模特,人物的肤色也变成了符合西方审美偏好的小麦色—即便这已经是AI生成的系列图像中较为接近初始图像的一张(图5)。
四、人机共创下的个性化与集体洪流
我们不妨简单描述一下AI图像生成的过程。首先它有一个大数据库,这个数据库抓取了大量图像作为基础数据,比如油画、插图、动漫以及摄影,甚至是历史图像。在以大数据为基础的大模型架构完成之后,这些图像全部会被程序打碎,然后被命名和编码。当指令送达时,指令也会根据先后顺序和权重被打碎,和这些底层被命名的碎片进行基因匹配,有限的算力开始工作,为了展示算力的神奇性(当然也可能是为了降低过久的算力压力),架构师们设定了算法耗费的时间区间,在固定的时间里,图像碎片堆叠的工作就已经开始了。当这个过程完成以后,我们就获取了指令所换来的图像。即便每个使用者都拥有一个个性化的频道,但就云端数据库而言,每个使用者生成的图像最终会汇入大数据的集体洪流,再一次经历上述过程。我们不得不面对人机共创中的几个重要问题:
(一)频道特性与数据共用
一张图像的生成,不单是一个人完成的,也不单是一个机器完成的,它涉及共同合作。长时间对个人所占有的频道进行喂养或指令训练,大数据就会形成自己的记忆,并不断讨好频道所有者。在某种程度上,频道所有者看上去似乎具备主体意识和相应的权力,但从大模型的角度来看,这些特性都会变成共用的数据。
(二)数据供养和图像反馈
笔者在这里使用了“供养”一词,是因为在AI里,如同在现实中,对于信仰人物的付出仪式一样,需要时间、财力以及虔诚度,而在大多数情况下,我们的付出和收获从来不成正比。在不可操控的界面和算法下,即便我们输入了很多限定性指令,也未必能够获得较为令人满意的图像。
(三)审美偏差和在线逃逸
意外总是频繁发生,并令人惊喜。生成的图像的成熟度和美学样式,也经常使我们亢奋。例如,当我们看到生成出来的图像跟我们最初想象的完全不一样,但该画面又特别惊艳的时候,到底是接受还是放弃这样的结果?大部分人可能偏向于接受,而接受以后面临的问题就在于人被数据训练,被数据喂养,而不是在塑造它,长此以往,就会形成舒适区。抵抗被驯养的办法不是逃避,而是达成在线逃逸的目的。所谓“逃逸”就是通过不断地修正指令,纠正审美偏差,使自身从AI设定的图像逻辑和较流行的审美偏好中摆脱出来,建立符合自己意志的图像生成取向。
(四)时间黑洞与数据“劳工”
AI表面上的低廉和快捷,造成了很多图像剩余。生成这些被我们看作废弃物的图像,消耗了大量的时间成本。就笔者生成图像的体验来测算,最初训练频道小模型,大致需要花费一天的时间才有可能生成一张比较满意的图像,后期这种训练的时间会逐渐递减,但这个过程无异于时间黑洞,创作者被其卷入。对于不断地在升级和更新的AI来说,大量的使用者并不是利益攫取者,而是数据和模型大公司的数据劳工,每一个模型的丰富与升级均有赖于大量使用者的喂养和劳作,而数据和模型的开发者由此获得用于改进模型的参数。
五、摄影与AI图像的关系思辨
摄影从业者需要将自己从媒介的焦虑里挣脱出来,以较为坦然的心态面对AI生成技术。如果要形象地描述AI生成,笔者认为它就是图像的杂交,是图像生物学意义上的混血样本。让摄影从业者焦虑的类摄影模型无非是对摄影的模拟—以摄影作为表象,并利用摄影的成像范式。
AI图像与摄影的关系到底如何?我们不妨来对比一下。摄影调动的人体器官是眼睛、手和脚,人们拿着相机走出去,用眼睛通过取景框观看世界,在情动之时用手按下快门。AI图像不遵循这种工作逻辑,它动用人的大脑和语言构建一个画面,人们要用文字表述指令。在摄影中,相机是人和世界的中介,在AI中,算法是人和数据的中介。摄影的结果是产生关于世界的图像,被拍下的图像是现实世界的镜像,而我们反过来通过镜像理解世界;AI的图像应该被看作是图像的世界,因为它使用大量的图像形成了一个图像的海洋,它是关于图像的图像。如果我们把摄影看成现实主义的倒影,那么AI图像就是神秘主义的祷告。
自AI诞生之日起,其生成的结果就面临着追问,尤其是版权问题。摄影是把世界进行共享,摄影家通过操作相机,提供主观意志形成的图像,而AI则是共享图像碎片。现实并没有版权,大家共享,图像碎片也因为被打碎而失去了版权的属性。但是,我们在AI图像的生成过程中看到,使用者们都是通过主观意志和劳动,使AI能够按照自己的指令去创造图像,如果摄影有版权,AI自然也应该有版权。事实上,对于版权的追问,反而有悖于摄影这一媒介本身的延展,更遑论AI图像。在芝加哥大学图像学学者W.J.T.米歇尔看来,“摄影既不是艺术、也不是非艺术(而是技术),它是一种新的生产形式,它改变了艺术的整个本质”[3]。而美国“十月”学派的看法更具针对性,“摄影作为技术复制时代最具代表性的媒介之一,它的可复制性、非原创性已经渗入艺术创作的底层逻辑。”[4]这句话意味着,口口声声践行摄影的人们,似乎执意让摄影这一去中心化的媒介回到少数人手中,而“原创”作为一种资本逻辑和术语,在创作实践中被提高到一个异常的地位。回顾“图像的一代”里的辛迪-舍曼、芭芭拉-克鲁格以及理查德-普林斯的实践,我们就会明白《十月》杂志里的这句话似乎对大多数摄影从业者而言是一种嘲讽,而AI图像似乎更应该如此。
(海杰,独立策展人、影像批评家,青岛电影学院摄影艺术与技术系学科带头人)
注释:
[1] [3] [4] 罗莎琳-克劳斯:《追溯纳达尔》,载于李鑫、徐旷之编,《重塑摄影:〈十月〉与当代摄影理论》,第42至43页、第5页、第5页,该书为内部学术交流资料,尚未正式出版。
[2] [美]约翰-塔格:《表征的重负:论摄影与历史》,重庆大学出版社2018年版,第6页。