看一集晚间新闻就能获得丰富的信息。追踪一段时间内的新闻趋势也非常有趣。
互联网档案馆保存了近300万小时
的美国地方和全国电视新闻节目,并将这些资料开放给研究人员进行探索和非消耗性计算分析。在4月13日的网络研讨会上,电视新闻档案馆的专家们分享了他们如何整理这些海量藏品,并利用技术手段,让学者、记者 海外数据 和公众都能利用这个庞大的资料库。
电视新闻档案馆创始人罗杰·
麦克唐纳 (Roger Macdonald)和合作数据科学家兼GDELT 项目创始人卡列夫·李塔鲁 (Kalev Leetaru) 在会议上发言。开放 为什么扩大此类招聘规模更容易 图书馆馆长克里斯·弗里兰 (Chris Freeland) 担任主持人,互联网档案馆创始人布鲁斯特·卡尔 (Brewster Kahle) 致开幕词。
观看视频
“在电视时代长大,电视是一种极具影响力、非常重要的媒介——它很有说服力,但你却无法真正引用,”卡勒说。“我们希望它能够让你引用、比较和对比。”
互联网档案馆以范德比尔特电视档案馆和加州大学洛杉矶分校图书馆广播新闻景观(UCLA Library Broadcast NewsScape)的工作为基础,旨在为公众提供更广阔的“宏观视角”,卡勒说道。大规模新闻广播计算分析中发现的趋势,可以用来理解世界正在发生事件的更广阔图景,以及我们看待周围世界的视角。
2012年,在个人和奈特基金会
等慈善机构的捐赠下,档案馆开始将所有美国广播公司必须提供的隐藏字幕数据流重新利用,并将其转化为搜索索引。“这种简单的方法彻底改变了在视频中搜索特定主题的过时体验,”参与领导这项工作的麦克唐纳说道。“电视字幕搜索实现了互联网速度的发现,能够同时搜索数百万个节目,并将搜索结果按时间顺序绘制成图表,精确到单个广播公司和节目。”
“[电视] 是一个如此有影响力、如此重要的媒介——它有说服力,但却不是可以真正引用的。我们希望它能够让你引用、比较和对比。”
布鲁斯特·卡尔,互联网档案馆
学者和记者们很快就抓住了这个机会,但团队仍在不 不丹商业指南 断尝试更深入的索引。麦克唐纳表示,音频指纹识别、光学字符识别 (OCR) 和计算机视觉等技术使得捕捉新闻的视觉元素并提升访问效率成为可能。
政治领导人演讲和访谈的子集已经建立,其中包括一个内容丰富的唐纳德·特朗普档案。麦克唐纳表示,档案馆的一些最有成效的进展来自与外部人士的合作,他们要求获得比通过公共界面获得的更多访问权限。在适当的限制以尊重广播公司和发行平台的前提下,档案馆与精选的科学家和记者合作,利用馆藏中的数据进行更复杂的分析。
将电视视为数据
Leetaru 表示,将电视新闻视为数据,为计算分析创造了巨大的机会。研究人员可以追踪新闻中词频的使用情况及其随时间的变化。例如,可以查看选定新闻节目中与COVID 相关的词汇的提及情况,并观察其在每次波动中何时出现激增、趋于平稳,然后又急剧下降,如下图所示。