Enlaces
ColiVara es un conjunto de servicios que te permite almacenar, buscar y recuperar documentos basados en su embebido visual. ColiVara tiene un rendimiento de recuperación de última generación tanto en documentos de texto como visuales, ofreciendo una comprensión y control multimodal superior.
Es una implementación web de primera línea del artículo ColPali utilizando ColQwen2 como modelo LLM. Funciona exactamente como RAG desde la perspectiva del usuario final, pero utilizando modelos de visión en lugar de fragmentación y procesamiento de texto para documentos. Sin OCR, sin extracción de texto, sin tablas rotas o imágenes perdidas. Lo que ves es lo que obtienes.
Cloud Quickstart:
- Obtén una clave API gratuita desde el Sitio web de ColiVara.
- Instala el SDK de Python y úsalo para interactuar con la API.
- Indexa un documento. ColiVara acepta una URL de archivo, un archivo codificado en base64 o una ruta de archivo. Apoyamos más de 100 formatos de archivo, incluyendo PDF, DOCX, PPTX y más. También tomaremos automáticamente una captura de pantalla de las URL (páginas web) e indexarlas.
- Busca un documento. Puedes filtrar por nombre de colección, metadatos de colección y metadatos de documento. También puedes especificar el número de resultados que deseas.
Documentación:
Nuestra documentación está disponible en docs.colivara.com.
Por qué?
RAG (Generación Aumentada por Recuperación) es una técnica poderosa que nos permite mejorar la salida de los LLMs (Modelos de Lenguaje) con documentos privados y conocimiento propietario que no está disponible en otros lugares. Sin embargo, está limitado por la calidad del pipeline de extracción de texto. Con una capacidad limitada para extraer señales visuales y otra información no textual, RAG puede ser subóptimo para documentos que son visualmente ricos.
ColiVara utiliza modelos de visión para generar embebidos para documentos, permitiéndote recuperar documentos basados en su contenido visual.
Características clave:
- Recuperación de última generación: La API se basa en el artículo ColPali y utiliza el modelo ColQwen2 para embebidos. Supera a los sistemas de recuperación existentes tanto en calidad como en latencia.
- Gestión de usuarios: Configuración multi-usuario con cada usuario teniendo sus propias colecciones y documentos.
- Amplio soporte de formato: Soporta más de 100 formatos de archivo, incluyendo PDF, DOCX, PPTX y más.
- Soporte de página web: Toma automáticamente una captura de pantalla de las páginas web y las indexa incluso si no es un archivo.
- Colecciones: Un usuario puede tener múltiples colecciones. Por ejemplo, un usuario puede tener una colección para artículos de investigación y otra para libros.
- Documentos: Cada colección puede tener múltiples documentos con metadatos ilimitados y definidos por el usuario.
- Filtrado: Filtrado para colecciones y documentos en campos de metadatos arbitrarios.
- Convención sobre configuración: La API está diseñada para ser fácil de usar con opiniones y optimizaciones predeterminadas.
- Características modernas de PgVector: Usamos HalfVecs para búsquedas más rápidas y requisitos de almacenamiento reducidos.
- API REST: Fácil de usar API REST con documentación Swagger.
- Integral: Operaciones completas CRUD para documentos, colecciones y usuarios.
- Dockerizado: Fácil de configurar y ejecutar con Docker y Docker Compose.
Evaluaciones:
Ejecutamos evaluaciones independientes con lanzamientos principales. Las evaluaciones se basan en el artículo ColPali y están diseñadas para ser reproducibles. Usamos el conjunto de datos Vidore y el tablero de líderes como línea de base para nuestras evaluaciones.
Componentes:
- Base de datos Postgres con extensión pgvector para almacenar embebidos.
- API REST para la gestión de documentos/colecciones.
- Servicio de embebidos. Esto necesita una GPU con al menos 8gb de VRAM.
- SDKs específicos del lenguaje para la API.
Plan de trabajo:
- Demo completa con modelos generativos.
- SDKs automatizados para lenguajes populares además de Python.
Inicio (Configuración local):
- Configura el Servicio de Embebidos (ColiVarE) - Este es un repositorio separado y es necesario para que la API funcione.
- Clona el repositorio.
- Crea un archivo .env.dev en el directorio raíz con las siguientes variables:
- Ejecuta los siguientes comandos:
- La aplicación estará ejecutándose en http://localhost:8001 y la documentación de Swagger en http://localhost:8001/v1/docs.
Licencia:
Este proyecto está licenciado bajo la Licencia de Fuente Funcional, Versión 1.1, Licencia Futura Apache 2.0. Para licencias comerciales, por favor contáctanos en tjmlabs.com.
Características principales
- Recuperación de última generación basada en el artículo ColPali.
- Soporte multi-usuario con gestión de colecciones y documentos.
- Amplio soporte de formatos de archivo, incluyendo PDF, DOCX, PPTX y más.
- Captura automática de pantalla de páginas web y su indexación.
- Filtrado avanzado por metadatos de colecciones y documentos.
- API REST fácil de usar con documentación Swagger.
- Integral CRUD para documentos, colecciones y usuarios.
- Dockerizado para una fácil configuración y ejecución.
- SDK de Python para una integración sencilla en aplicaciones.
- Evaluaciones independientes para garantizar la calidad y rendimiento.
Casos de uso
- Un desarrollador de software necesita integrar un sistema de recuperación de documentos visuales en su aplicación para mejorar la experiencia del usuario. Utiliza ColiVara para indexar y recuperar documentos visualmente ricos, mejorando la precisión y velocidad de la recuperación.
- Un investigador académico necesita acceder a documentos visualmente ricos para su estudio. Utiliza ColiVara para indexar y recuperar documentos de artículos académicos y libros, facilitando su investigación.
- Una empresa necesita mejorar su sistema de recuperación de documentos para incluir soporte visual. Utiliza ColiVara para indexar y recuperar documentos visuales, mejorando la eficiencia y precisión de su sistema.
- Un estudiante necesita acceder a documentos visuales para su proyecto. Utiliza ColiVara para indexar y recuperar documentos de libros y artículos académicos, facilitando su trabajo.
- Un desarrollador de software busca mejorar la experiencia del usuario con recuperación visual de documentos. Utiliza ColiVara para indexar y recuperar documentos visuales, mejorando la precisión y velocidad de la recuperación.
Preguntas frecuentes
¿Qué es ColiVara y cómo funciona?
¿Qué formatos de archivo soporta ColiVara?
¿Cómo puedo integrar ColiVara en mi aplicación?
¿Qué ventajas ofrece ColiVara sobre otros sistemas de recuperación de documentos?
¿Cómo puedo obtener una clave API para ColiVara?
Comments (0)
Herramientas de IA relacionadas
Preguntas Frecuentes
¿Qué es el Directorio de Herramientas de IA de MaoMaoYu?
El Directorio de Herramientas de IA de MaoMaoYu - top4ai.com crea un directorio de herramientas de IA que te ayuda a encontrar tus herramientas de IA favoritas. Aquí puedes encontrar herramientas de escritura de IA, herramientas de marketing de IA, herramientas de parafraseo de IA, herramientas de SEO de IA, herramientas de aprendizaje de IA, herramientas generadoras de IA, herramientas de investigación de IA, herramientas de arte de IA, herramientas de música de IA, herramientas de video de IA, herramientas de codificación de IA, herramientas de fotografía de IA y más.
¿Cómo encuentro tus herramientas de IA en el Directorio de Herramientas de IA de MaoMaoYu?
1. Abre top4ai.com.
2. Explora las herramientas de IA en el Directorio de Herramientas de IA de MaoMaoYu.
3. Haz clic en las herramientas de IA que necesitas para obtener los detalles y visita su sitio web.
¿Cuáles son las características principales del Directorio de Herramientas de IA de MaoMaoYu?
1. Explora una definición simple de las herramientas de IA y descubre cómo encontrar rápidamente la perfecta para tus necesidades. Optimiza tu flujo de trabajo con la solución de IA adecuada.
2. Motor de búsqueda inteligente: Pensando en lo que piensas, ahorrándote tiempo, ahorrándote problemas
¿Es gratis enviar herramientas de IA al Directorio de Herramientas de IA de MaoMaoYu?
Sí, actualmente es gratis.
¿Qué categorías de herramientas de IA admite el Directorio de Herramientas de IA de MaoMaoYu?
Más adelante, admitiremos todo tipo de herramientas de IA. Por favor, espera unos días.
¿Con qué frecuencia se actualiza la lista de herramientas de IA en el Directorio de Herramientas de IA de MaoMaoYu?
La lista de herramientas de IA se actualiza diariamente.
¿Apoya aquí a GPT-4o o a Sora AI?
Puedes obtener la herramienta GPT-4o o Sora AI aquí. Aquí tienes la introducción a GPT-4o y Sora Video, y puedes visitar el sitio web de las herramientas.
Solución de Problemas
Si los contenidos no se muestran, intenta usar otro navegador o borrar tu caché. Si los problemas persisten, contáctanos en [email protected] | [email protected].
¿Cuáles son los derechos de uso de las herramientas de IA?
El Directorio de Herramientas de IA de MaoMaoYu es solo el directorio para herramientas de IA. Los derechos de uso de las herramientas de IA se basan en el sitio web de las herramientas de IA.