公众号被搜索引擎抓取算哪门子互联互通?

科牛 2021年10月25日10:11:11来源:公众号 望月的博客
评论
130
广告也精彩
一大早,好友千古壹号就跑来跟我说,微信已经移除用于屏蔽搜索引擎的robots.txt文件,谷歌和必应已经可以搜索到微信公众号文章了,并发来一张大大的截图。

公众号被搜索引擎抓取算哪门子互联互通?

看到百度还没有收录,他还感慨百度的爬虫机器人不够努力。

我第一反应是感觉这事儿有点蹊跷,因为如果是微信主动允许搜索引擎来抓取的话,只会修改robots协议,而不会移除。

可能很多朋友没有网站制作和博客经验,在这里先简单科普一下robots协议和搜索引擎爬虫。

公众号被搜索引擎抓取算哪门子互联互通?

上图是搜索引擎的基本技术架构,对于搜索引擎来说,抓取内容是第一步,面对海量的互联网内容,人工抓取显然不现实,于是就有了抓取程序,这个程序,有的叫蜘蛛(Spider),有的叫机器人(Bot),这里统称为爬虫。

爬虫方便了搜索引擎,但也带来很多问题,比如隐私数据被抓取了,早些年Googles搜索结果里就有一些银行的电子表格数据,再比如一些无用重复的信息被抓取了,既增加服务器压力,又不利于网站的SEO。

这种情况之下,robots协议应运而生。

robots协议最早于1994年由荷兰籍网络工程师Martijn Koster提出,到2008年前后被雅虎、谷歌和MSN Live Search等搜索引擎所采纳,现在主流的搜索引擎基本都遵守该协议标准。

robots是网站跟爬虫间的协议,它用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,简单来说,爬虫访问网站时首先要看一看是否有robots.txt文件,如果有,就按照里面规定的方式规规矩矩爬,如果没有,就可以横行霸道了。

回到前面的问题,如果微信真的允许搜索引擎爬虫抓取公众号内容,只需要修改协议里的几个字符就行了,而不会把robots.txt 文件整个移除,微信再怎么开放,也不会让平台的内容完全裸奔。

果不其然,下午腾讯就回应说:

因为平台技术升级,公众号robots协议出现漏洞, 致使外部爬虫技术可爬取部分微信公众号内容。目前漏洞已修复。

这和我想的差不多,应该就是微信公众号在升级的时候没有把robots协议放上去,而不是什么公众号向搜索引擎开放。

至于百度为什么搜索不到,要么就是他家的爬虫动作太慢,要么就是百度已经放弃了往公众号部署爬虫。

这段时间,工信部等部门倡导各平台进一步开放,解除外链屏蔽等限制,在这种大环境下,再加上彭博社放了个“微信和今日头条可能会被要求开放内容给搜索引擎”的消息,让公众号的这次技术失误格外引人关注。

如果互联互通的目的是方便用户和反垄断,我是举双手赞成的,但就公众号和今日头条向搜索引擎开放内容这一“假说”身上,我看不到互联互通和反垄断的影子。

从互联互通的角度来说,平台同时支持微信和支付宝叫互联互通,各平台都支持外链叫互联互通,但内容和搜索引擎原本是两个完全不同的产品,如果说微信公众号、头条号和百家号之间可以互相跳转,还勉强有点互联互通的样子。

硬要放大了来理解互联互通的话,那么百度自家的百度百科、百度知道和百度贴吧等内容产品是不是也应该向微信搜索和头条搜索开放呢?

从反垄断的角度来看,内容产品本身就很难定义,就算按照我们常说的新媒体内容“两微一抖”来看,微信公众号也绝对算不上什么垄断,退一万步讲,就算公众号对比百家号在数量上占优势,那么让百度能搜索到公众号内容貌似也对百家号没什么帮助。

反垄断绝不应该成为免费获取竞争对手优质内容资源的工具,像微信公众号、抖音等是通过平台搭建维护、各种创新手段和激励措施(无论是物质的还是精神的)才吸引到大批优质创作者创作内容,反垄断的目的应该是鼓励更多像这样的产品出现,而不是让对手不劳而获,获取他们的劳动成果。

这些年,微信公众号既没有搞“二选一”,也没有做什么“扶持计划”,反倒是百家号、一点号、大鱼号等曾花了很大力气、很多资金挖掘优质创作者和内容,动辄十亿数十亿的补贴金额,但成效并不明显,为何?

我想,最主要的是微信公众平台相对固定的阅读人群、良好的正向反馈和创作体验足够吸引创作者。

也就是说,微信公众平台是靠优质的服务吸引和留住了用户和内容,而今,以百度为代表的搜索网站不是提升自己的服务质量去吸引用户,而是打着反垄断和互联互通的旗号,试图强制要求竞争对手提供优质资源给自己,天下哪有这等好事?

互联互通和反垄断的目的是为了提升网民整体的用户体验,而不是为了满足哪家公司的小算盘,机关算尽太聪明,有时恐怕会反误了卿卿性命。

  • 微信:3083118361
  • weinxin
  • 公众号:科牛
  • weinxin
  • 版权声明 本文源自 公众号 望月的博客, 整理 发表于 2021年10月25日10:11:11
  • 版权归原作者所有,如您有版权权益方面的问题,请及时联系我方处理!
网站开启CDN或者SSL证书会影响收录? 建站

网站开启CDN或者SSL证书会影响收录?

先科普下什么是CDN,字面意思是内容分发网络。 简单来说就是,CDN可以帮你把网站上的内容进行缓存,然后通过分布在全国各地的网络节点进行分发。 此举可以极大的降低你网站服务器本身的负载,有效提高网站反...
给公司制作网站,应该做成什么样子? 建站

给公司制作网站,应该做成什么样子?

以我观察,现在的公司网站大部分都是一个模式。 就是最简单的网页展示型,仅仅包含了最基础的公司简介、产品详情、联系方式、招聘信息等内容。 网站存在的唯一目的,貌似只是告诉人们,“你看,我们公司有个官网!...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: