对谈计算传播学:起源、理论、方法、与研究问题
2018-04-15 09:30:24
  • 0
  • 0
  • 5

来源:中大新传CUHKJourComm

对谈人:祝建华、黄煜、张昕之

「计算传播学的出现是历史的必然,动因大致包括三方面:一是现象、二是数据、三是方法。具体来说:互联网的兴起催生了很多前所未有的传播行为。互联网诞生后,人们的线下(offline)生活和网上(online)生活是此消彼长的;如今,网上生活已经超过了线下生活。这种现象带来了新的研究数据。网上行为留下了数码踪迹(digital trace),海量数据变得唾手可得。因为有了这些海量数据,传统的数据收集和分析方法(比如调查、实验和内容分析)效率不高、精度不够,所以需要引入新的研究方法。因此,一批学者开始从事计算方法的开发和推广。计算方法的普及,使得研究网上行为如虎添翼。总之,『现象、数据、方法』,三方面的条件在最近十几年内相继逐步成熟,最终导致计算传播学的兴起。」

祝建华教授简介

香港城市大学计算社会科学讲座教授。他先后获得中国复旦大学学士、硕士和美国印第安纳大学博士。曾任美国康乃狄克大学副教授和中国人民大学长江学者讲座教授。现为香港城市大学媒体与传播系讲座教授、传播研究中心主任,以及互联网挖掘实验室创办人。近年来的研究兴趣包括互联网、社交网、移动网的使用及效果等。他目前兼任Journal of Computer-Mediated Communication编委、中国计算机学会大数据专家委员会委员等职,并在传播学、计算机、物理、医疗信息等学科刊物上发表其有关网络抽样、网络可控性、互联网信息扩散等研究结果。他是国际传播协会(ICA)计算方法小组(Computational Methods)的首倡发起人,他最近指导实验室学生团队在中国计算机学会2017年大数据和计算智能大赛中获得三项大奖。

JZ:祝建华

HY:黄煜

XZ:张昕之

HY:请您谈一谈计算传播学的起源、主要研究对象和方法的特点。

JZ:计算传播学(computational communication research)不是一门新的学科或新的理论,而是一种新的研究取向(research approach)或一套新的研究方法,可以大致定义为:通过收集和分析网上行为数据(online behavioral data),描述、解释和预测人类传播行为及其背后驱动机制的一系列计算方法(computational methods)。其主要数据来源不再是传统的内容分析、问卷调查和控制实验,而是来自于服务器日志数据挖掘(server log analytics)、网页数据抓取(web scraping)、在线档案数据(online archiving/indexing data)、大规模在线实验(massonline experiment)等;其数据分析方法除了经典的统计分析之外,还包括社会网络分析(social network analysis)、文本挖掘(text mining)、空间分析(spatial analysis)、时间分析(temporal analysis)等。为了帮助理解,我经常用以下这个表来界定计算传播学的边界:

表一中的第1和第4格非常清楚,不需多说。第2格(如社会化媒体研究中常见的通过问卷调查研究大学生使用Facebook)为什么不是计算传播学研究?因为这类研究与使用问卷调查研究读者阅读印刷版《纽约时报》的行为在本质上没有区别,只是研究场景不同而已。反之,第3格又为什么算作计算传播学呢?我这里专指采用计算方法来收集和分析线下传播行为,但这些行为记录一定要被数码化了,不然无法用上计算方法。如Google nGrams把几百万本书扫描成文本数据,在此基础上的分析研究就是计算传播学了(Michel et al., 2011)。当然,这一格内的案例不多,很值得计算传播学者去关注和发掘的。以下的对话中提到的计算传播学,主要是指第4格。

计算传播学的出现是历史的必然(尽管这过程中也有一些偶然的因素,后面会提到)。必然的因素有三方面:一是现象、二是数据、三是方法。具体来说:互联网的兴起催生了很多前所未有的传播行为。互联网诞生后,人们的线下(offline)生活和网上(online)生活是此消彼长的,今天,网上生活已经超过了线下生活。同时,这种现象带来了新的研究数据。网上行为可以留下数码踪迹(digital trace),比如网站登陆、在线消费等,海量数据变得唾手可得。因为有了这些海量数据,传统的数据收集和分析方法(比如调查、实验和内容分析)效率不高、精度不够,所以需要引入新的研究方法。因此,一批学者开始从事计算方法的开发和推广。计算方法的普及,使得研究网上行为的学者如虎添翼。总之,「现象、数据、方法」,三方面的条件在最近十几年内相继逐步成熟,最终导致计算传播学的兴起。

当然,计算传播学发展速度之快,远远超出人们的预料。2012年夏天,我参加了第465次北京香山会议,专门讨论是否需要建立数据科学(当时还不流行大数据的说法)。香山会议是小规模的闭门「神仙会」,属于非正式会议,但讨论结果对高层决策往往有较大影响。那次会议的一个具体成果就是在中国计算机学会内设立大数据专委会,从此揭开大数据在中国的推广、普及(甚至炒作)之浪潮。可以说,我从一开始就身在源头,但想不到浪潮这么快就冲到了传播学。

HY:这个「现象-数据-方法」的过程,有先后出现的特定顺序吗?

JZ:这个过程在逻辑上应该是先后发生的,但在事实上是平行出现的。早期,新的传播现象并没有引起社会科学研究主流的足够重视。其实,用计算方法对人类媒体的使用行为进行记录和分析的工作很早就开始了,只不过当时的研究者不以「计算社会科学」或「计算传播学」作为名称而已。比如,早在互联网之前的1970年代,就开始了对电视收视的在线行为的研究,称为电视收视分析(TV ratings analysis,见Webster & Lichty, 1991),可惜这些方法及其成果并没有得到学术界的足够重视。我早年也研究过电视收视的个体行为,以后有了第一台互联网服务器后,就很自然地沿用收视率的概念和方法来分析用户网上行为,所以比较了解计算传播学的来龙去脉。

如果一定要从时间上来划分的话,计算传播学的发展大致上有三个阶段。第一阶段,针对用户使用行为的研究,从电视收视分析的时候开始就有了。第二阶段,应该是到2005年前后,随着社会化媒体平台的出现和用户自创内容(user-generated content,简称UGC)的出现,数据来源从后台(服务器)变到了前台(网页)。在第一阶段时,很多数据是依赖后台提供的;而到了第二阶段,可以直接从前台抓取,学界和业界对UGC这类研究开始感兴趣。第三阶段大概在2010年前后开始,越来越多的学者开始采用不同于传统研究方法的一系列计算方法,计算传播学这个研究取向获得了进一步的发展。这其中,大量可得数据的出现,是贯穿始终的一个驱动因素。

HY:「计算传播学」成为一个约定俗成的名词是什么时候开始的?有没有标志性的事件?

JZ:我并不主张把「计算传播学」叫做一个学科或一个独立的研究领域,而更倾向将其称为「计算社会科学在新闻传播研究中的应用」。我和几位学生在2014年发表了一篇文章,就是用这一说法做标题的(祝建华等,2014),文中按照传播学「5 个W」(Who [谁]、says what [说什么]、in what channel [通过何种渠道]、to whom [对谁说]、with what effect [产生何种效果])的顺序,逐一介绍应用计算方法研究传播学的经典案例。这篇文章,也许算是中文文献中的开始介绍计算传播学的一个标志性事件。而说到「计算传播学」这个名称,应该是我的博士生王成军首先提出的。我个人比较保守,最初并不主张用这个名称,因为计算传播学研究的依然是5W的「老问题」。这里当然还有一个不同语言之间的翻译问题。英文比较准确,叫computational communication research,但译成中文时加了一个「学」字,似乎就成为一个专门的学科了。现在约定俗成了,大家都用计算传播学这个名称,我也只能从众,但每次都要强调这是一种新的研究取向或一组新的研究方法,而不是一门新的学科。也许有些年轻后辈对此并不满足,认为新取向、新方法背后有其新理论、并且已经有了新发现,可以叫新学科了。我当然也希望这个取向有朝一日能够孵化、催生出一门新的学科,但目前才刚刚起步,来日方长。

通俗地说,计算传播学的主要研究对象是「社会化媒体」(social media)。目前很多研究学者并不是传播学出身,而是来自物理、计算机、工程等学科的学者。这些人一直在使用计算方法。从最早的数据挖掘(data mining),到机器学习(machine learning),到现在的深度学习(deep learning),计算方法至少有这么三个发展阶段,(与上面讲的计算传播学发展三阶段并不一一对应)。而这三个阶段的发生和演变,有必然、也有偶然的因素,如深度学习的兴起、成为计算方法的最新阶段,就是偶然的。这是题外话,以后有机会可以专门讲讲这个过程对社会科学基本理念的深刻启示。总之,任何技术的兴起,都和满足某种社会需求有关。

在国际传播学术圈内,一个标志性的事件则应该是2014、2015年之间,我和彭泰权、梁海等人在国际传播学会(International Communication Association,ICA)内倡议建立一个计算方法(Computational Methods)的兴趣小组。作为首倡者和发起人,我草拟了小组的申请报告、对计算传播学做了前面提到的定义和说明。我们征集了欧美亚太等地50多ICA会员作为发起人,两年多来已经增加到200多位成员了。首届小组主席由彭泰权担任。这段历史也说明,中文语境下的计算传播学与国际范围的计算传播学之间的发展是同步挂钩、互相推动的,这种情形在传播学其它各分支中还是罕见的。

我们起初想把这个小组命名为「computational communication research」(简称CCR),但是鉴于ICA已经有若干涉及计算研究的分会或兴趣小组,比如传播与技术(Communication and Technology,CAT)分会和移动传播(Mobile Communication)兴趣小组。为了避免名称上的重合,我提出两个方案,一个叫social media analytics,另一个就是computational methods。最后经过投票,大家在这两个名字中选取了后者,因为前者显得太应用,而后者更加学术。所以说,我们一开始就把计算传播学定位为研究方法,希望通过在ICA中建立一个专门小组来为传播学研究方法的创新作出贡献。如果说任何一个研究都涉及what(做什么)和how(怎样做)这两部分的话,我们更希望为「how」这个问题提供一个讨论的场所。推广开去,任何一个成熟的学科都有一个专门讨论方法论的刊物。最近听说德国的一些学者在推动ICA成立一个传播研究方法小组,专注经典方法的讨论。从时间上看,ICA先有新的计算方法小组、再有经典方法小组,则是一件与众不同、值得回味的趣事。

HY:那么在您看来,计算传播学与传统的量化研究方法或者传播理论分析有什么重要的不同之处?背后的研究理念是什么?

JZ:相同之处在于都是研究人类传播的现象和行为,但是由于不同的记录方法,产生了不同的数据,从而导致了一系列的区别。

不同之处主要有三:

首先是数据的结构不同。传统方法(专指定量方法,下同)用的多是「矮胖型」(flat data)数据,观测的个案(cases)数目少,但是变量(variables)很多,有的社会调查可以问到成千上百个问题。统计学里有一个分支专门讨论当k(变量数)大于n(个案数)的分析方法(比如你只有200个个案,但是每个个案回答1,000 多个问题,这违反了经典统计分析中k < n的原则)。而大数据时代,我们不再需要为此烦恼,因为数据都是「高瘦型」(tall data),尤其是网上获取的行为数据,个案很多(可以达到数亿甚至数千亿),但是变量很少(通常只有三五个变量,如用户在什么时间、什么地点、做了什么事情这几项而已)。

其次,变量的内容和品质也不一样。过去的调查、实验等方法提供的数据是受访者自己报告(self-reported)的认知、态度以及行为意向等,统称为动机(motivations)。即使是研究购买、选举、媒介使用的行为,其实也只是测量了动机意向而已。我们知道,人的记忆很可能出错,或者因为从众心理(social desirability),人可能有意无意地说谎。而网络数据中观测到的数据是人类的行为,基本上没有记忆、说谎等人为误差(当然有其他误差,如机器人行为、水军行为、广告软文等等)。

第三,观测的时间粒度(time resolution)不同。过去传统方法的时间粒度,往往非常粗略,如「过去」、「现在」,或「今年以来」、「本月(周)内」等等。最精确的是日记调查,也只能做到以小时为单位。网络数据在时间上非常精确,一般以毫秒(秒的千分之一)为单位。这是大数据之所以「大」的一个原因。如果一个用户的手机24小时开机(我估计很多人是这样的),那么他 / 她每天就有近一亿条记录!当然目前来讲,我们并不需要或并不善于使用这么精确的时间粒度,所以大数据存在着严重的夸大和浪费(祝建华,2013)。我们这里不谈这些技术细节(有兴趣者可参见我下面提到的「时段」研究)。总的说来,精准的时间粒度是利远大于弊,是对传统研究数据的显著进步。

XZ:对研究对象进行如此详实而精确的测量和记录,是否会有研究伦理方面的考量(比如研究对象的知情同意、研究是否可能对研究对象带来伤害等等)?

JZ:我每次谈计算传播学,都有人问这个问题,可见其受到普遍关心的程度。问题涉及很多层面和侧面,这里无法展开详谈,只讲两个重点:第一,迄今的讨论都是基于提问者的个人感觉(anecdotal evidence),缺乏严谨的数据,如问题的广度(少数偶然还是普遍必然事件)和来源(演算法错误还是人为错误,如「内鬼」倒卖数据)等,所以亟需科学地加以评估;第二,如果不用这些数据和方法,还有更好的备选方案(alternatives)吗?没人能够回答。我们即使不考虑后者的数据质量,其收集方法同样问题多多,如入户面访涉及到更多的安全和隐私问题、电话调查容易被当作推销或电信诈骗等等。Salganik(2018)在他的新书Bit by Bit 中提倡「向前看」的态度,即现状确实不尽人意,但可以逐渐改进。我完全认同他的说法。以下是我最近对一个批评算法的贴子的回复,用来总结我的基本看法:

「我们需要理性讨论这个问题。算法确实是一种打分系统。民主不就是基于打分吗?如选举,公投,议会,等等,不都是打分?打分的反面是精英的主观判断。哪个更好?当然,现在的算法打分,很多做的并不好,我们既不要盲目迷信,更不要因噎废食。需要科学地评估,不断改进,而不是回归精英说了算。」

XZ:在传统传播学的研究中,问题的设计是由研究者决定的,研究者设立了问题,然后才去问这些问题。而在计算传播学的语境下,对于研究对象的记录都是被动的,那么动机方面的问题如何加进去?是否应该是先有动机,才有行为?

JZ:你问了两个问题:一是研究程序。传统定量研究,确实是以先假设、后检验的验证性(confirmatory)研究为主,当然也有从数据中找感觉的探索性(exploratory)研究,那是支流,难为主流期刊接受。计算传播学同样有验证或探索的两种程序,各自所占的比例还不清楚,但直觉上后者数量不少,很可能超过探索程序在传统研究中的比例。探索性研究的价值及其局限,下面还会涉及,我先回答你的第二个问题:动机和行为的关系。

理想状态下,我们同时拥有这两者的数据。但事实上,如前面说的,传统研究往往只有动机数据而网络数据只有行为数据。计算传播学研究中,是从人的行为去推测其动机。因此,从这个角度看,计算传播学的一个基本(和隐含)假定是人的行为比动机更重要,因此研究行为更有意义和价值。以至于有一种观点认为,动机不重要。因为人要做成一件事,光有动机还不够,还需要有各种条件,如社会环境、个人能力等,才能有预定的结果。当然这就回到了社会科学的一个基本问题了。在社会学中有社会结构(structure)与个体能动性(agency)的辩论,在传播学中有主动受众(如使用与满足论)与被动受众(如大众受众论,见Webster & Phalen, 2013)两派的长期对峙(Biocca, 1988)。

我们至少可以这么说,基于行为数据的计算传播学研究,不管是按验证性还是探索性程序展开,其结果都为一些长期争执不休的基本理论问题提供了前所未有的新证据。

如何把动机数据加到行为数据中去?如果有相同个体的动机数据(如问卷调查),如何整合只是个技术问题。现在主要的困难是缺乏这种动机数据,巧妇难为无米之炊。

XZ:过往若干心理学、政治传播等社会科学中使用的概念,比如人格(personality)、态度(attitude)、知识(knowledge)、信任(trust)、效能(efficacy)、乃至意识形态(ideology)等,这些测量的都不是行为,那么这些概念和测量还重要吗?这方面的研究应如何与计算传播学进行对话?

JZ:现在已经有人开始用行为数据去推测动机(包括人格、态度等,如Eftekhar, Fullwood & Morris, 2014; Wei et al., 2017)。我也一直有这方面的兴趣,主要从用户行为的时间数据入手,来推测人的社会角色、生活方式、动机、人格等等。我们最近刚刚完成了一项基础性的研究,通过测量手机使用的「时段」(sessions)来给用户的生活方式画像(Zhu et al., 2018)。总之,你问动机研究与行为研究如何对话,一是很有必要、二是正在悄悄进行、三是很多最终结果(如知行之间的相似度)可能不是大家预期的。也许这正是包括计算传播学在内的计算社会科学的魅力所在之处。

HY:让我们来谈另一个相关话题,「计算社会科学」(computational social science)是什么时候兴起的?

JZ:「计算社会科学」(computational social science)的兴起是一个渐进的过程,因为不同学科的学者都一直在进行相关的研究,只不过用了不同的名词。如以英国为首的欧洲学者曾称之为「e社会科学」(e-social science),Wikipedia上有这个条目(https://en.wikipedia.org/wiki/E-social_science,核心部分还是我写的)。而计算机学者则喜欢使用「社会计算」(social computing)的概念(我也参与其间,一直担任「中国社会计算年会系列」的共同主席和组织者);人文学者也有自己的体系,如「数码人文」(digital humanities)。这些概念及其团体,至今还很活跃,并没有完全被整合到计算社会科学的旗下。这很正常,科学研究是个思想自由市场(free market place of ideas),任何品牌的兴衰,都取决于大多数研究者的理性选择。对我个人来说,经过深思熟虑之后,觉得计算社会科学最合适,「社会科学」是我们的身份认同(identity)、「计算」是我们区别于传统方法的一个特征标签。

现在回到你的问题,如果要见诸文字的话,计算社会科学的「正式诞生」,应该就是David Lazar 等16位学者于2009年发表在Science上的一篇题为「计算社会科学」的论文为标志(Lazar et al., 2009)。这篇文章其实不是一个原创研究,而是一个「定位宣言」(position paper),强调人们生活网络化及其记录(网络数据)使得通过这些数据而研究社会的必要性和可行性。或者说,这篇文章的最大贡献,就是其标题中的三个英文词(computational social science,计算社会科学),在各自为政的学术江湖中树起一面富有召唤力和凝聚力的旗帜。

HY:我问这个问题,其实是想和传播学研究的发展过程进行比较。我们都知道传播学有「四大奠基人」。那么到了计算传播学这一研究取向的历史进程会是怎样的?

JZ:计算传播学的进程,和传播学早年的发展有点类似。我们可以引用施拉姆(Wilbur Schramm)曾经提出的两个经典比喻来形容这两者的相似之处。第一个比喻是在1960年代提出的,当时他说传播学是一个「cross-road」,即十字路口,各学科的人骑着骆驼(即顺着他们的研究兴趣)路过此地,停留一阵之后又重新上路,各奔东西。到了1980年代,他改变了看法,提出了第二个比喻,叫做「oasis」,绿洲。意思是随着传播学的成熟,各个大学相继培养了一批传播学博士,比如他在伊利诺大学厄巴纳-香槟分校(University of Illinois Urbana-Champaign)创办的传播研究所(Institute of Communications Research),就是最早的一个传播学博士点,所以传播学不再是其它学科的旅行者暂时客居之地,而是由传播学原生学者为主的永久性学术共同体。

这段历史与计算传播学的发展很相近。到今天为止,计算传播学的大部分研究是由其它学科的学者完成、并在传播学之外的期刊和会议上发表。这些「游客」中有些已经留下来了,在大学传播院系内任教。这样的例子在今后几年内会越来越多。当然,他们是否能够成为永久居民,还有待双方的磨合,当中存在各种新问题、新挑战。与此同时,传播学自己培养的第一批计算学者也已经问世,其中有些就是从我这里毕业的。他们可以算是计算传播学的原生学者。当然,他们也面临很多挑战,与外来的计算学者相比,他们在计算上并没有优势;与其它传播学者相比,他们在传播学理论上也没有明显的优势。但是,这些同时又是他们的价值所在:连接计算科学(也被称为数据科学)与传播学的桥梁。或借用社会网分析的术语来说,他们是跨学科的structural holes(结构洞)。对于他们来说,如何借助这个历史性的机遇,协调和发挥计算学者和传播学者双方的互补作用,将是计算传播学这片小绿洲能否持续发展的关键。

HY:刚才我们谈到了传播史,今天对传播行为的理解和50年前不一样。传播学里把传播分为人际传播、组织传播、大众传播、国际传播这些,您觉得这样的区分在今天还有意义吗?您认为何种行为才是核心的经典的传播行为?

JZ: 5个W是传播学研究历来的核心。可惜有些学者往往忽视、甚至藐视这5个W,感觉不够「高大上」。我认为计算传播学的研究范围和主题,基本上就是传播学研究的5个W。针对5W模型的批评,我想进一步谈两个看法。首先,有些学者批评5W是线性的、单向的,没有包括反馈(feedback)。这个批评是对的。早期学者不研究反馈,主要因为缺乏相关的数据。现在随着数据量的增加,研究反馈(如社交媒体上的用户评论、点赞、转发等等)已是一项标准动作了。但是另外一个批评则未必有道理了。有些人认为5W模型没有考虑具体的语境,没能做到语境化(contextualization)。我认为,这种看法恰恰就是传播学多年以来进步不大的一个重要原因,我把这个现象称做「过分语境化或具象化(over-contextualization)陷阱」。你刚才把传播分为人际、组织、大众,某种意义上,也是从contextualization的逻辑出发的。我认为,过分强调传播的语境,就是强调事件的特殊性。5W模型的可贵之处,恰好就是超越了传播现象中具体的语境(context)和范围(level),把传播现象上升到概念(concept)的高度,从而使这个模型具有普适性。我们并不知道当时拉斯韦尔(Harold Lasswell)提出这个模型的时候是否想到了这点。但是他的思想来源是香农(Claude Shannon)的信息论,信息论原来研究的是工程问题,把信息传播中所有材料的物理介质(机械、声波、电子等等)都被抽象掉了,只剩下这5个W。抽象是科学化必须的一步。反之,强调语境的研究,更多的是具体的应用性研究,而非科学的抽象研究。

我们在最近的一项文献分析中发现,随着计算传播学的普及,越来越多的人参与进来,同时也出现了过分语境化或具象化的趋势(Zhu et al., 2017)。学术研究中,最难的部分就是既要从具体的现象出发,又要超越具体的现象。在用惯的术语中,最具象的、最具体的叫做事件,然后是现象(phenomenon),最抽象的是现象背后的形成机制(driving mechanisms)。用到传播学研究里,现象是指对媒体的使用和效果、机制则指为何使用和为何有效。我们需要从具体的媒体、具体的用户类别、内容中涉及的具体事件等现象抽象虚化掉,才能找到背后的传播过程和机制。普遍的误区是,把具体的场景当成现象、把现象当成机制。我们总是比真正的科学研究更「具象」一步。这是传播学发展受阻的一大问题。

HY:可否举几个例子?

JZ:比如很多人研究某某事件中的社交媒体,另外一批人研究某某事件中的社交媒体。但是双方各自被事件的独特性(如社会、经济、文化等等背景和一些机构、人物的特殊作用等等)所迷住了,所以分别写成了某某事件和某某事件,而社交媒体的使用及效果只成了其中的注解。

再举一个我亲身经历的例子。我读博士时,曾经把一篇研究中国民众政治意识的文章投给China Quarterly,结果未被接受,编辑说我的研究不够contextualize。我请教了一位研究中国问题的专家,他说你研究的是普遍问题,应该投给Asian Survey,那也是一个不错的期刊,后者果然接收了。我从中体会到,研究传播问题有两种取向,一是研究个性(如中国国情),二是研究共性(如变量之间的普适关系)。前者应该投给Area Study(地区研究)的期刊(如China Quarterly),他们很清楚自己研究的就是具体的语境以及特定的案例。后者应该投给传播学期刊(或政治、社会学等期刊,取决于所涉及的理论问题)。换言之,可以发表在Journal of Communication的文章,未必可以发表在China Quarterly上,反之亦然。因此,我们则需要清楚区分,究竟一个研究是在研究具体的特例,还是研究抽象的现象及其背后的机制。

XZ:您刚提到研究需要超越具体的context,那么如果是比较研究呢?在社会科学上有large-N 和small-n 两种取向,前者将contextual 变量(如国家、社区层面的变量)与个体的变量(个人层面的变量)区分开来,再使用多层模型(multilevel models)进行建模;而后者是在有限个案中考察变量的异同(如Skocpol [1979]、Liebes &Katz [1993]这些学者在政治社会学、跨文化传播等领域的论著)。这些似乎都离不开对context的考察。比较传播研究如何与计算传播进行对话?

JZ:我在2001年的一篇文章(祝建华,2001)中,有一段对理论化与本土化的关系的描述,认为两者是一个连续变量(continuous variabl)的两端。这个变量可以指的是「抽象化」的程度(context-free vs. context-specific),或者叫做国际化的程度(internationalization vs. localization)。这个变量的一端是不受任何时空限制的人类传播原理,另一端是某一个特定社会在某一特定时期的特定传播现象。计算传播学也应该强调这个变量的一端(普遍的人类规律),而不应太过重视另一端(具体的现象)。

HY:计算传播学现在的研究遇到什么问题吗?

JZ:现在计算传播学还没有达到传统定量研究那样成熟的地步,还处于初步发展阶段。如,计算传播学尚无一本公认的教科书;很多院校还没有专门的课程、系统讲授计算传播学的理念、研究设计等核心内容,更常见的做法是在定量研究方法中添加几个章节或讲座,或者教一些专门的分析技术,比如text mining、online experiment等等。如果用罗杰斯(Everett Rogers)的创新扩散理论来看,现在处在第二个阶段,就是快速增长(growth)的阶段,参与者都算是早期采用者(early adopters),但大部分研究还是零打碎敲式的,而不是在一个理论架构下的有机组合。有些朋友建议出一本《计算传播学研究手册》(Handbook of Computational Communication Research)之类的书,我则觉得为时过早。因为handbook应该具有相对稳定、丰富和独立的内容,和其他学科的重合不应该太多,可是如果我们现在写这本书,很多内容都是抄数据挖掘、机器学习、网络分析等领域的工作。

其次,现在很多研究还是以描述为主、无意或无法解释「why」的问题。大部分的计算传播学研究都发表在非社会科学的期刊上,因为他们不太纠结why问题。但是一旦拿到了传统社会科学期刊,就绕不过这个问题。说到「传统」,这就是社会科学的范式(paradigm)。能否改变这个范式?我倒觉得未必。这和传统研究方法的惯性有关,同时也和技术手段有关。很多解决计算传播的研究工具尚未诞生,很多传统的统计方法需要改进——有的方法甚至还未诞生。

举个例子:网络抽样问题。传统抽样方法是基于独立及相等分布(independent andidentical distribution)假设,即个体的行为是互不相关的。然而网络化行为都是互相影响的,这就违背了独立分布的假设,从根本上挑战了网络抽样。假设你有总体数据,如全部Facebook或微信的用户,那就不需要操心抽样。但是绝大多数学者拿不到这种数据。就算拿到了,数据体量大得惊人,难以存储和拷贝。所以抽样是一种必要和理想的的方案,但是由于现有各种抽样方法都基于独立分布假设,所以全不适用。我们做过大量实验,发现现在还没有真正适合用于网络抽样的方法(Xu & Zhu, 2016)。我也曾请教过做概率统计的学者,一开始他们觉得这是小菜一碟,但是后来发现正如我说的,网络抽样确实很难,但是他们没有兴趣花时间研究,因为这是一个「应用」问题,在他们学科里价值不高。这类问题其实不少,很多目前都悬而未决。

HY:请对未来研究趋势做些分析。

JZ:我们先分析现状,再谈谈理想状况。大部分计算传播学研究还停留在文本挖掘上,方法上不够多元,容易陷入过分语境化或具象化的泥坑。传统学者看来,似乎就是so what的问题,即使你画更漂亮的图、算出更准确的参数,但还是「新瓶旧酒」。理想状态呢?其实未必需要挖空心思去琢磨。我们希望未来有更多对行为和效果的研究。传播效果是有阶梯的,从认知、态度到行为。最终目的还是行为的采纳或改变。以前因为行为不易研究,所以退而求其次,研究动机和态度。现在有了行为数据,为何还要绕着走?

HY:谈到研究需要抽象,您在八十年代译介了麦奎尔(Denis McQuail)和温德尔(Swen Windahl)《大众传播模式论》(McQuail & Windahl, 1981)。其中您赞扬McQuail对理论的抽象化的表述。这些表述对计算传播学有什么启发?

JZ:《大众传播模式论》确实是一本好书,其中最重要的一个特点就是用图像的方式描述抽象的概念及其之间关系,可以叫做「理论可视化」。书中很多理论的原作者自己都没有想到过这种表述方法。McQuail和Windahl将其概念和关系提取出来,比原先的文字描述更抽象了一步,但形式上看上去却好像更具象(其实只是图像比文字更形象的错觉而已)。其实我在第二版的译者前言中提到,两位作者所做的抽象还可以更进一步,如使用更抽象的二维座标图,从而可以直接和数学公式相对应(祝建华,2008)。Chaffee(1991)在他的Explication一书中详细讨论了概念明示精准问题,一个研究需要阐释(explication)其理论的增量是多少,多少是跟前人重复的,以及概念可否操作化等问题。

HY:所以说,一个学科的抽象化的程度,显示了一个学科的成熟程度。那么计算传播学有没有属于自己的独特的学科边界和知识发展体系?

JZ:很多人批评传播学没有独特的学科边界和知识体系,我不敢苟同。传播学有自己独特的学科体系,其核心就是5W。80%–90%的传播学理论和研究回答的是5W中的某个问题。相反,从其它学科引入的理论和案例,不一定涉及5W问题。计算传播学呢?同样也是以5W为核心,那是传统传播学的知识财富,千万不要把宝贝婴儿当作洗澡水泼掉。

那么,计算传播学可以或者应该在哪些方面超越传统定量研究呢?我认为大概有以下几方面:

研究用户行为而不是他们的动机或态度(前面已有所讨论,这里不再展开);

研究传播的动态过程而不是其静态结局(以前也说传播是个动态过程,但是经常因为缺乏时间信息而无法实现);

研究网络化条件下的用户行为(以前也承认人与人之间的关联,人跟环境之间的互动,但由于缺乏相关的数据和分析手段而停留在光说不做(lip service)阶段);

研究从个体(用户)到团体(家庭、群体等)到总体(社会)等不同层次之间的交互影响(以前也有多层分析、但只限于少数几个共用数据,现在的网络数据,几乎每个都涉及多层结构);

研究具有地理空间位置信息的用户行为和传播过程(这在以前基本不可能);

采用描述性(descriptive)或探索性(exploratory)研究(这在以前则是被鄙视的)。这一点在计算传播学内外都有很多争议。我认为描述性和探索性研究在任何新研究领域(如社交媒体、移动媒体、穿戴媒体等)的早期是必要和有益的,所以目前应该允许甚至鼓励。当然,三五年后,如果我们还停留在探索和描述阶段,那就有问题了。

计算传播学的这些特点,是否能够产生新的知识?现在还难说,要靠大家的努力。进一步问,是否能够带来新的范式转移(paradigm shift)?更是有待时日检验。1983年,传播学刊(Journal of Communication,JoC)出了一期主题为「正在发酵中的传播学」(Ferment in the Field)的专辑,提出了传播学范式转移的必要性,引起很大反响和共鸣。大家一方面是对现状范式的不满,另一方面又觉得推陈出新似乎很容易。但是三十多年来,传播学还在发酵之中,翻来覆去讲的只是「推陈」的必要性,谁也没有「出新」的解决方案。1993年JoC又出了一期发酵专辑(文章更多,所以分了两期登完),今天没有几个人记得这件事了。最近JoC在编第三次发酵专辑,还没有问世,有什么解决方案吗?大家拭目以待吧。我押注在计算传播学上。它已是一种有别于现有范式的新范式,也许短期内还不会取代现有范式,但很有可能成为主流范式之一。当然计算传播学面临的问题和挑战也很多。借用上海财经大学2017年末召开的一个数据新闻研讨会的总结报导的标题「数据新闻一哄而上,问题一把」(杨颜菲、刘璐,2017),计算传播学也有点一哄而上,随之出现一堆疑问。我们计算传播学者要正视问题,避免昙花一现的结局。

HY:如果博士研究生要进入这个领域,需要有什么注意的地方?如何启发他们的研究思路?

JZ:计算传播学方法需要有更长的训练时间,大家首先对此要有充分的心理准备。理工科背景的需要学习经典的社会科学理论和方法;文科背景的需要学习传统的定量方法。另外,不要放弃传统的量化研究方法,如不熟悉则必须学会。如果是传统方法做不好而来赶计算传播学这个新潮的话,恐怕做不深,往往是新瓶旧酒。我能够在计算传播学里有点发言权,并不是因为我的计算方法特别强,而是在传统的理论、方法、尤其是研究设计(research design)上有比较多的经验积累。微软研究院的数据可视化专家在社会科学文献中发现我20多年前的「零和游戏」理论,很适合作为展示公众舆论之间竞争关系的框架,于是来找我们合作,结果发表在计算机可视化的顶级期刊上(Xu et al., 2013)。最近北京大学计算机学院请我在他们2018年暑期学校中给来自海内外的计算机学生开设一门计算社会科学课程,我将把重点放在社会科学的研究设计上。

XZ:计算社会科学中有一种多主体建模(agent-based modelling,ABM)的研究方法。在传播学领域,曾有学者用ABM来研究传播行为(如Song & Boomgaarden, 2017)。您觉得这种研究方法,会在未来成为计算传播学研究的一个分支吗?

JZ:我必须先声明一下,我对ABM的了解相当肤浅,流览过一些涉及传播问题的论文,没有被打动过,所以以下评论,仅限于传播研究中的ABM,也许并不能推广到其它领域。我对这类研究的主要质疑是缺乏基准真相(ground truth)的验证。什么是基准真相?简单说,真实世界的代表性数据。刚才我一直都在说,科学的原动力,来自于数据;因为有了数据,才有人去研究;有人研究了,才会发现现有的方法不足,才有方法的进步;有了方法的改进,才会有科学研究发现的突破。科学发展的三部曲应该是数据、方法、理论。ABM的逻辑过程是理论假设-仿真数据-验证理论,当中跳过了实证数据。没有后者,如何证伪理论模型?当然,有些ABM研究也用到了实证数据,放在最后,比较模拟数据与真实数据之间的相似性。其实这种比较并非严格的验证或证伪,基本上都是在整体层面(aggregated level)上的类比,我还没有看到过个体层面的证伪案例(当然也许存在,我并没有做过系统的检索)。哪怕两者相似甚至高度相似,还不是证明的必要条件,并没有排除产生这种相似的其它原因。举个经典案例,人类行为的时间分布,整体上呈幂律分布(power-law distribution,见Barabasi,2005)。最初的发现者Albert-Lazsol Barabasi等并进一步假设这是由于人们根据各种行为不同重要性而做出的不同优秀排序而决定的(Vazquez et al., 2006)。如果用ABM来研究,可以设定各种行为的排序参数,然而随机生成数据,再混在一起,果真是幂律分\布。这样就证明了优先排序论吗?没有。因为还有很多其它可能性,如人的记忆等(Vazquez, 2007)。

对于ABM在传播学中的必要性和可行性,我的基本看法是,在没有数据或可靠数据的情况下,有些学者采用模拟的方法制造仿真数据,是可以理解的。但是我们必须知道,这种研究仅仅展示了有关理论假设的「表面可能性」(probable cause)而非该理论的最后证明,后者需要有真实数据的严格证伪。大数据时代还需要模拟仿真数据吗?对于有志做ABM的学者,我的建议有两点。第一,一定需要用真实数据来做验证(validation),才能提出有突破性的结果。第二,要仔细查看一下过去相似的研究,从中总结一下经验和教训。ABM在传播学中的应用早已有之,最常见的就是沉默螺旋理论。我曾经看到过数十篇类似的文章,都号称自己解决了一些理论问题。一开始我每看到这类文章都很激动,每篇都仔细看,结果发现这些文章的结论五花八门,每一篇都不一样。尽管每一篇都内在自成系统,有些故事也很有趣,但是每个研究无法验证、互相之间也无法对话。这种困局,好多年了,如何走出来?我认为出路还是在实证数据之中。

[本文参考文献从略]

祝建华著作选

Zhu, J. H. (1992). Issue competition and attention distraction: A zero-sum theory of agenda-setting. Journalism Quarterly, 69(4), 825–836.

Zhu, J. H., Watt, J. H., Snyder, L. B., Yan, J., & Jiang, Y. S. (1993). Public issue priority formation: Media agenda-setting and social interaction. Journal of Communication, 43(1), 8–29.

Zhu, J. H., Milavsky, J. R., & Biswas, R. (1994). Do televised debates affect image perception more than issue knowledge? A study of the first 1992 presidential debate. Human Communication Research, 20(3), 302–333.

McCombs, M., & Zhu, J. H. (1995). Capacity, diversity, and volatility of the public agenda: Trends from 1954 to 1994. Public Opinion Quarterly, 59(4), 495–525.

Zhu, J. H., Weaver, D., Lo, V. H., Chen, C., & Wu, W. (1997). Individual, organizational, and societal influences on media role perceptions: A comparative study of journalists in China, Taiwan, and the United States. Journalism & Mass Communication Quarterly, 74(1), 84–96.

Zhu, J. J. H., & He, Z. (2002). Perceived characteristics, perceived needs, and perceived popularity: Adoption and use of the Internet in China. Communication Research, 29(4), 466–495.

Zhu, J. J. H., Mo, Q., Wang, F., & Lu, H. (2011). A random digit search (RDS) method for sampling of blogs and other web content. Social Science Computer Review, 29(3), 327–339.

Peng, T. Q., Zhang, L., Zhong, Z. J., & Zhu, J. J. H. (2013). Mapping the landscape of Internet studies: Text mining of social science journal articles 2000–2009. New Media & Society, 15(5), 644–664.

Zhang, L., & Zhu, J. J. H. (2014). Regularity and variability: Growth patterns of online friendships. International Journal of Web Services Research, 11(4), 24–36.

Wang, Z. Z., & Zhu, J. J. H. (2014). Homophily versus preferential attachment: Evolutionary mechanisms of scientific collaboration networks. International Journal of Modern Physics C, 25(5), 1440014.

Jiang, L. C., Wang, Z. Z., Peng, T. Q., & Zhu, J. J. H. (2015). The divided communities of shared concerns: Mapping the intellectual structure of e-health research in social science journals. International Journal of Medical Informatics, 84(1), 24–35.

Ackland, R., & Zhu, J. J. H. (2015). Social network analysis. In P. Halfpenny & R. Procter (Eds.), Innovations in digital research methods (pp. 221–244). Sage Publications.

Liang, H., & Zhu, J. J. H. (2018). Big data, collection of (social media, harvesting). In J. Matthes, C. S. Davis, & R. F. Potter (Eds.), International handbook of communication methods. Wiley & Sons.

本文引用格式

祝建华、黄煜、张昕之(2018)。〈对谈计算传播学:起源、理论、方法、与研究问题〉。《传播与社会学刊》,第44 期,页1–24。

 
最新文章
相关阅读