PA旗舰厅官网主页

研究:近一半热门新闻网站屏蔽了 OpenAI 爬虫

发布时间:2025-12-24 07:40:02

一项由路透社研讨所进行的

研讨标明

,到 2023 年末,全球 10 个国家的抢手新闻网站中,近一半(48%)屏蔽了 OpenAI 的爬虫(Crawler),而近四分之一(24%)屏蔽了 Google 的 AI 爬虫。

该研讨所剖析了包含纽约时报、BuzzFeed 新闻、华尔街日报、华盛顿邮报、CNN 和 NPR 在内的 15 家覆盖面最广的网络新闻来历的 robots.txt 文件。这些新闻机构来自德国、印度、西班牙、英国和美国等国家,包括传统印刷媒体、电视广播公司和数字原生媒体三种类型。

研讨发现,到 2023 年末,超越一半(57%)的传统印刷媒体网站,例如纽约时报,屏蔽了 OpenAI 的爬虫,相比之下,电视和广播公司为 48%,数字原生媒体为 31%。相同,32% 的印刷媒体网站屏蔽了 Google 的爬虫,而广播公司和数字原生媒体的份额分别为 19% 和 17%。

与此同时,康奈尔大学最近的一项研讨发现,当新式人工智能模型仅运用从前模型而非人类输入的数据进行练习时,它们往往会堕入“模型溃散”或退化,导致生成内容呈现更多过错和误导信息。

网站爬虫被用于多种意图。例如,Google 的 Googlebot 会抓取发布商网站,将其收录到查找成果中。而 OpenAI 的爬虫 GPTBot 则会在互联网上搜集数据,用于练习其大型言语模型,例如 ChatGPT。这使人工智能工具可以生成精确、实时的内容,而新闻发布商特别拿手供给此类内容:大型言语模型对优质出版商内容的注重程度是其他来历内容的 5 到 100 倍。

该研讨还指出,北半球国家的新闻机构比南半球国家更倾向于屏蔽人工智能爬虫。例如,在美国,79% 的抢手在线新闻网站屏蔽了 OpenAI,而在墨西哥和波兰,这一份额仅为 20%。与此同时,德国 60% 的新闻网站屏蔽了 Google 的爬虫,而在波兰和西班牙,这一份额仅为 7%。

研讨发现,简直一切屏蔽 Google 爬虫的网站也屏蔽了 OpenAI(97%)。尽管该研讨没有供给切当解说,但这或许标明 OpenAI 比 Google 更早发布爬虫有关。

值得注意的是,在大多数国家,一些发布商在爬虫刚发布时就当即屏蔽了它们。OpenAI 于上一年 8 月初启动了其人工智能爬虫,Google 随后于 9 月份仿效。研讨还标明,一旦做出屏蔽决议后,没有一家网站吊销对 OpenAI 或 Google 人工智能爬虫的屏蔽。

← 返回