
itefetch es una herramienta diseñada para descargar un sitio web completo y guardarlo como archivo de texto, lo que facilita su uso en modelos de inteligencia artificial. Permite especificar páginas concretas a descargar y ofrece opciones de concurrencia para optimizar el proceso. Además, proporciona una API para desarrolladores y utiliza la biblioteca mozilla/readability para extraer eficientemente el contenido web.
Table of Contents
📌 ¿Qué es este módulo?
Este módulo permite conectar Saturn Studio con Sitefetch, una herramienta diseñada para descargar sitios web completos y guardarlos como archivos de texto. Esto facilita su uso en modelos de inteligencia artificial, extracción de contenido y análisis de datos web. También ofrece opciones de concurrencia, formato Markdown y uso de selectores CSS para precisión en el scraping.
📚 Descripción de los comandos
📄 Fetch a Site
Parámetro | Descripción | Ejemplo |
---|---|---|
URL del sitio | Página web desde la cual se extraerá el contenido. | https://rocketbot.com/es/ |
Concurrencia | Número de solicitudes simultáneas permitidas. | 10 |
Selector de contenido | Selector CSS para extraer el contenido deseado. | div |
Límite | Número máximo de páginas a procesar. | 10 |
Markdown | Si está activado, el contenido se descargará en formato Markdown. | true |
Asignar resultado a variable | Variable donde se almacenará el resultado. | { “filename”: “sitefetch_1743…”, “id”: “…”, “size”: 36559, “provider”: “sitefetch” } |
Descarga el contenido de un sitio web completo o parcial, con opciones de formato y concurrencia, y lo guarda como archivo de texto o Markdown.
🧪 Ejemplos de uso
- Fetch a Site: Descargar contenido desde
https://rocketbot.com/es/
con un selector CSS específico y guardar el resultado como archivo Markdown para análisis posterior. - Limit + Concurrency: Descargar solo las primeras 10 páginas del sitio, procesadas en paralelo para mayor velocidad.
🧩 Requisitos
- Tener acceso a la URL pública del sitio web deseado.
- Usar un selector CSS válido (por ejemplo:
div
,article
,main
) para extraer contenido relevante. - Contar con una credencial y configuración correcta de Sitefetch si se accede mediante su API privada.
- Verificar que el sitio no tenga restricciones técnicas (como captchas o bloqueos de scrapers).