老板AI应用课:AI营销获客之GEO如何创建LLMs.txt

作者: admin 分类: 评论分析 发布时间: 2025-08-13 13:22

如果你做过SEO,或者了解过SEO,那么你一定知道robots.txt和sitemap.xml这两个文件。

前者是爬虫协议,后者是站点地图,作用都是在告诉搜索引擎的爬虫蜘蛛,哪些网站页面可以抓取,哪些页面不可以抓取。

随着大语言模型的发展,前面我们已经讲过,AI应用除了自己的蜘蛛定时去爬取信息,在联网搜索的时候也会去爬取。

这就要求有一种新的协议,符合LLM(大语言模型)标准的,能够给AI提供友好内容的全新方案。

LLMs.txt这种索引文件应运而生,它的作用跟前面提到的那两个文件一样,都是在告诉AI,这些内容是你看得懂,看起来很舒服的。

AI就会顺着LLMs.txt的指引去抓取内容,当然,你不想让AI抓取的内容,也可以在LLMs.txt中设定好,道理是一样的。

那什么样的内容算是对AI友好的呢?答案是Markdown格式的,传统的HTML+JS包含太多冗余的信息,尤其JS加载的内容AI爬虫是无法读取的。

因此,LLMs.txt提供给AI爬虫的内容必须是Markdown格式,且是最新的,最希望爬虫去抓取的,有效的内容。

至于Markdown格式的内容怎么写,这个网上有很多的资料可以参考,甚至于你都不需要自己去写,使用工具进行转换即可,比如HTML转Markdown在线工具。

老马个人建议是你可以把网站中比较重要的页面、资讯内容等都转换成单独的Markdown文件,如果里面涉及到多媒体文件(图片、视频、音频),可以存储到服务器上,把URL地址放在Markdown文件中。

由于大语言模型的AI应用最终抓取和回复给用户的内容,主要都是文字,所以你创建的Markdown文件重点也是处理文字。你把存储在网站服务器上的Markdown文件发给AI应用,网址假设如下:

www.majiabin.com/12345678.md

.md是Markdown文件的后缀,以上这个文件AI是可以轻松读懂的。换句话总结,就是尽量把HTML静态文件转换成md文件,伪静态的也是如此。

同时,保证你整个网站目录结构下的重要页面,比如公司介绍、产品介绍、联系方式等,都转换成对应的md文件存储在服务器上,可以直接用URL地址进行访问。

做完以上准备工作,你就可以开始使用工具创建一个LLMs.txt的索引文件,同时把这个文件上传到网站服务器的根目录下,与robots.txt同在。

下面老马就介绍一个非常简单好用,自动生成LLMs.txt文件的在线工具。

1、使用LLMs.txt生成器

工具网址:
https://www.pdftool.cc/zh/llms-txt-generator,电脑浏览器打开后,我们可以先输入自己的网站地址,获取一下本来就已经设置好的robots.txt,作为生成LLMs.txt文件的参考,如图:

然后输入你的网站名称,联系方式。LLM提供商的选择,就得看你具体的业务需要,比如你的业务是涉及出海的,那建议是全选国际,涉及国内的,则只全选国内,如图:

正常来说,像国外的openAI、Anthropic、Google、Meta、Microsoft这些都可以选择,国内的百度、阿里、腾讯、字节跳动、360搜索则可以作为首选。

它这个工具其实里面是混合了一些传统的搜索引擎爬虫的,如果你没有啥特殊要求,建议无脑全选,省得去分辨哪些是AI爬虫。

爬取延迟的设置保持默认,除非后期你发现AI爬虫已经把你的服务器拖垮了,比如老马自己的小鸡(轻量级云服务器)就受不了ChatGPT的频繁抓取,如图:

虽然ChatGPT的蜘蛛也考虑到不能抓取太频繁,太快,以免触发某些网站的防火墙,导致蜘蛛IP被封禁。但由于老马的网站使用的是Wordpress这种土肥圆程序,极容易产生过多的慢请求打死php-fpm。

讲人话就是,ChatGPT的蜘蛛天天这么爬老马的网站,严重拖卡了服务器,本身服务器配置就低,所以情况跟老马相似的,可以把爬取延迟设置高一些。

禁止路径的设置好理解,不想被AI爬虫抓取的页面就禁止掉,一般就是管理后台啥的。允许路径就是设置允许的,这里可以把上面创建的重要的.md文件URl地址放进去,效果如图:

自定义规则里面你可以设置单独的AI爬虫规则,比如针对ChatGPT爬虫,让其重点关注我们创建的md文件中的出海内容,也可以把sitemap.xml

文件的URL地址放置于此。

以上配置完成,点击生成LLMs.txt即可。生成后你可以直接下载LLMs.txt文件,也可以在电脑新建一个LLMs.txt,复制生成内容到剪贴板后粘贴进去保存,最终上传到服务器根目录下。

好了,以上就是今天的分享,有任何问题和需求请留言,回见!

如果觉得我的文章对您有用,请随意赞赏。您的支持将鼓励我继续创作!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Protected by WP Anti Spam