防止内容被抓取训练AI 百度百科屏蔽谷歌/必应等搜索引擎

投稿 · 2025-07-09 23:22:11

百度百科的robots.txt文件显示,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容,所以360搜索和其他搜索引擎也都是被屏蔽的,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI,据报道。

快科技今日(8月22日)消息,未经授权抓取百度百科的内容用于训练AI,虽然360搜索没有在封禁列表中单独列出,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容,预计是为了阻止这些搜索引擎和其他爬虫,不过百度百科这种做法其实也只是防君子不防小人。

但百度百科的策略是禁止一切非白名单爬虫抓取。

文章推荐:

武士动作Roguelite《Cursebane》Steam页面公布 发行日期待定

Steam用户评价现在会显示评测者是否主要用Steam Deck游玩

《黑神话:悟空》收入或超26亿元!华强北组装电脑生意被带火

《拳皇》推出30周年纪念网站开启 纪念策划将启动

《文明6》通关率不足一半让官方失望 《文明7》将改进