AI资讯 / 发布于 2026.6.2 5:13

Strava在IPO前向爬虫宣战

人工智能公司已经成长为数据匮乏的实体，因为他们的模型需要更大的数据集来训练。为了满足这一需求，许多人工智能初创公司违背了长期存在的互联网惯例——比如尊重robots.txt文件，它向自动爬虫发出信号，告诉自动爬虫网站的哪些部分是禁止访问的——并积极地抓取数据。这迫使网站限制对其数据的访问，并在某些情况下与人工智能公司达成许可协议。健身和社交跑步公司Strava正在朝这个方向迈进，限制其网站并向开发者收取访问费用。

为了停止抓取，该公司正在提高其网站的安全性，现在只允许经过身份验证的用户查看某些数据。早些时候，用户无需登录即可查看公开资料和健身俱乐部列表等详细信息。该公司将所有这些数据置于身份验证之后，以防止未经授权的人工智能抓取。

在API方面，开发人员之前可以通过免费的分层访问计划开始在Strava上构建应用程序 - 首先申请基本访问权限，然后随着应用程序的增长请求更多访问权限。现在，该公司向所有开发商收取每月11.99美元的固定费用，不过该公司指出，价格可能会因地理位置而异。

Strava表示，其开发者社区成员已从去年的185,000名成员增加到今年的241,000名，公司计划继续为他们提供支持。作为其中的一部分，Strava还计划增加对模型上下文协议 (MCP) 的支持，这是一种新兴标准，允许人工智能助手和应用程序以结构化方式访问外部数据，从而使Strava能够更好地控制共享内容和共享方式。

该公司还计划停用一些API端点（允许外部应用程序提取特定数据（例如俱乐部详细信息）的离散访问点）以保护用户数据。 Strava已于2024年收紧了API规则，禁止将其用于人工智能训练，并限制第三方应用程序显示其他用户的数据。这些变化引起了开发者的强烈反对，他们表示他们的应用程序将受到严重影响。

虽然一些开发人员可能接受支付订阅费，但取消某些API端点仍然可能会影响依赖的应用程序。在进行这些更改之前，Strava为开发者提供了90天的宽限期。

StravaCEO迈克尔·马丁 (Michael Martin) 在接受TechCrunch采访时表示，不受控制的人工智能抓取可能会敲响公共互联网的丧钟。

马丁说：“鉴于对训练数据的无限需求，人工智能公司正在无情地抓取公共网站，这全面降低了网站的性能。”在过去的几个月里，我们遇到过多次性能下降的情况，在某些情况下甚至受到损害。除了抓取公共网站之外，他们还尝试使用我们的API来访问我们的数据，而忽略API条款。”

他指出，Strava拒绝了领先人工智能实验室寻求数据许可协议的提议。他特别提到了Perplexity，称这家人工智能搜索初创公司尽管被拒绝，但仍通过聚合服务进行抓取，以掩盖其来源。这与Perplexity过去在其他地方被指控有类似行为的情况是一致的。

Martin还指出了由于振动编码应用程序构建不当而导致的服务器过载，这些应用程序的API调用通常结构效率低下，并在Strava系统上产生不成比例的负载。这是一种模式：去年Meta禁止来自WhatsApp的第三方聊天机器人时，它对系统开销提出了类似的论点。

时机可能并非巧合。 Strava今年早些时候秘密申请了IPO，其保护数据的举措可能是为了向潜在投资者发出数据纪律信号。 Martin很快就将这一问题与Reddit 2024年对API访问的打击进行了比较。与Reddit不同的是，Reddit据调用次数对API访问进行定价（这使得许多应用程序开发者无法承受），而Strava则押注固定费用可以保持开发者生态系统的完整性。

“我们希望用户感觉他们拥有自己的数据，并对我们控制和保护数据的方式感到满意。但我们希望开发人员继续蓬勃发展和成长，”马丁说。

← 返回列表