Strava在IPO前向爬虫宣战

人工智能公司已经成长为数据匮乏的实体,因为他们的模型需要更大的数据集来训练。为了满足这一需求,许多人工智能初创公司违背了长期存在的互联网惯例——比如尊重robots.txt文件,它向自动爬虫发出信号,告诉自动爬虫网站的哪些部分是禁止访问的——并积极地抓取数据。这迫使网站限制对其数据的访问,并在某些情况下与人工智能公司达成许可协议。健身和社交跑步公司Strava正在朝这个方向迈进,限制其网站并向开发者收取访问费用。

为了停止抓取,该公司正在提高其网站的安全性,现在只允许经过身份验证的用户查看某些数据。早些时候,用户无需登录即可查看公开资料和健身俱乐部列表等详细信息。该公司将所有这些数据置于身份验证之后,以防止未经授权的人工智能抓取。

在API方面,开发人员之前可以通过免费的分层访问计划开始在Strava上构建应用程序 - 首先申请基本访问权限,然后随着应用程序的增长请求更多访问权限。现在,该公司向所有开发商收取每月11.99美元的固定费用,不过该公司指出,价格可能会因地理位置而异。

Strava表示,其开发者社区成员已从去年的185,000名成员增加到今年的241,000名,公司计划继续为他们提供支持。作为其中的一部分,Strava还计划增加对模型上下文协议 (MCP) 的支持,这是一种新兴标准,允许人工智能助手和应用程序以结构化方式访问外部数据,从而使Strava能够更好地控制共享内容和共享方式。

该公司还计划停用一些API端点(允许外部应用程序提取特定数据(例如俱乐部详细信息)的离散访问点)以保护用户数据。 Strava已于2024年收紧了API规则,禁止将其用于人工智能训练,并限制第三方应用程序显示其他用户的数据。这些变化引起了开发者的强烈反对,他们表示他们的应用程序将受到严重影响。

虽然一些开发人员可能接受支付订阅费,但取消某些API端点仍然可能会影响依赖的应用程序。在进行这些更改之前,Strava为开发者提供了90天的宽限期。

StravaCEO迈克尔·马丁 (Michael Martin) 在接受TechCrunch采访时表示,不受控制的人工智能抓取可能会敲响公共互联网的丧钟。

马丁说:“鉴于对训练数据的无限需求,人工智能公司正在无情地抓取公共网站,这全面降低了网站的性能。”在过去的几个月里,我们遇到过多次性能下降的情况,在某些情况下甚至受到损害。除了抓取公共网站之外,他们还尝试使用我们的API来访问我们的数据,而忽略API条款。”

他指出,Strava拒绝了领先人工智能实验室寻求数据许可协议的提议。他特别提到了Perplexity,称这家人工智能搜索初创公司尽管被拒绝,但仍通过聚合服务进行抓取,以掩盖其来源。这与Perplexity过去在其他地方被指控有类似行为的情况是一致的。

Martin还指出了由于振动编码应用程序构建不当而导致的服务器过载,这些应用程序的API调用通常结构效率低下,并在Strava系统上产生不成比例的负载。这是一种模式:去年Meta禁止来自WhatsApp的第三方聊天机器人时,它对系统开销提出了类似的论点。

时机可能并非巧合。 Strava今年早些时候秘密申请了IPO,其保护数据的举措可能是为了向潜在投资者发出数据纪律信号。 Martin很快就将这一问题与Reddit 2024年对API访问的打击进行了比较。与Reddit不同的是,Reddit据调用次数对API访问进行定价(这使得许多应用程序开发者无法承受),而Strava则押注固定费用可以保持开发者生态系统的完整性。

“我们希望用户感觉他们拥有自己的数据,并对我们控制和保护数据的方式感到满意。但我们希望开发人员继续蓬勃发展和成长,”马丁说。

← 上一篇文章 在家发射的韩国火箭初创公司Unastella融资2400万美元 下一篇文章 → Revolut在更广泛的推出之前向印度数千名用户推出服务

← 返回列表