Solr vs. Elasticsearch: ¿Cuál es el mejor motor de búsqueda?

Mayo 26, 2022

macevedo

Solr

Elasticsearch

Las búsquedas son partes integrales e importantes de cualquier aplicación. Hacer búsquedas en terabytes y petabytes de datos puede ser un desafío cuando la velocidad, el rendimiento y la alta disponibilidad son requisitos fundamentales, es por esto que se recurre a un servidor de búsqueda como Solr o Elasticsearch, para poder manejar estos desafíos.

Comparación rápida

Se realizó una comparación entre los motores de búsqueda de código abierto más conocidos y utilizados, Solr y Elasticsearch, con el objetivo de ayudar a tomar una decisión de acuerdo a las necesidades particulares.

En primer lugar, Solr tiene más ventajas cuando se trata de datos estáticos, debido a su caché y la capacidad de usar un lector no invertido para clasificar, por ejemplo, comercio electrónico. Por otro lado, Elasticsearch es más adecuado, y se emplea con mucha más frecuencia, para casos de uso de datos de series temporales, por ejemplo, análisis de registros.

Elastichsearch

Elasticsearch es un motor de búsqueda y analítica de RESTful distribuido capaz de abordar un número creciente de casos de uso. Proporciona un motor de búsqueda de texto completo distribuido, compatible con múltiples inquilinos con interfaz web HTTP (resto) y documentos JSON sin esquema. Las bibliotecas de clientes oficiales para la búsqueda elástica están disponibles para: JavaScript, java, PHP, groovy, .net, ruby, Perl y Python.

Los motores de búsqueda pueden distribuirse, contienen índices que se dividen en fragmentos y cada fragmento puede tener varias copias. Cada nodo de Elasticsearch puede tener uno o más fragmentos. Su motor también actúa como coordinador, delega operaciones en los fragmentos correctos.

Elasticsearch tiene escalabilidad de búsqueda casi en tiempo real. Una de sus características clave es que es multiusuario; sin embargo, existen otras características que también son clave como:

Búsqueda distribuida
Período de arrendamiento múltiple
Una cadena de analizadores
Búsqueda de escaneo
Agregación de grupos

Solr

Solr ha estado en la industria de los motores de búsqueda desde el 2006; es un producto probado con una comunidad de usuarios sólida y amplia. Solr ofrece equilibrio de carga automático, reindexación distribuida, conmutación por error y consultas de recuperación.

Si se implementa correctamente y se administra bien, puede convertirse en un motor de búsqueda altamente confiable, escalable y tolerante a fallas. Muchos gigantes de Internet como Netflix, eBay, Instagram y Amazon (Cloud Search) usan Solr porque puede indexar y buscar múltiples sitios web.

La lista de características clave incluye:

Funcionalidad NoSQL y manejo productivo de documentos (por ejemplo, palabras y archivos PDF)
Resaltar
Búsqueda de matrices múltiples
Indexación en tiempo real
Búsqueda de texto completo
Agrupación dinámica
Integración de base de datos

Instalación y configuración

Java es el requisito previo principal para instalar ambos motores, pero la configuración predeterminada de Elasticsearch requiere 1 GB de memoria HEAP. Esto se puede cambiar en el archivo jvm.options dentro del directorio de configuración.

De forma predeterminada, Solr necesita al menos 512 MB de memoria HEAP para asignar instancias. Esta configuración se puede cambiar en el archivo de script solr o en el archivo solr.in.cmd, ambos archivos se encuentran dentro del directorio bin de la instalación de Solr.

Elasticsearch es fácil de instalar y configurar, pero es más pesado que Solr. Los archivos de configuración en Elasticsearch están escritos en formato YML, mientras que solr admite archivos de configuración basados en XML.

Indexación y búsqueda

Tanto Solr como Elasticsearch escriben índices en Lucene, pero, dado que existen diferencias en fragmentación y replicación (entre otras características), también existen diferencias en sus archivos y arquitecturas. Además, Elasticsearch tiene soporte DSL nativo, mientras que Solr tiene un analizador de consultas estándar robusto que se alinea con la sintaxis de Lucene.

Escalabilidad y Distribución

Los motores de búsqueda tienen que procesar rápidamente grandes cantidades de datos y consultas complejas en conjuntos de cientos de millones de registros. A veces, estas consultas pueden consumir tantos recursos que pueden hacer caer todo el sistema, especialmente si no ha planificado la carga con anticipación y no puede escalar rápidamente. Por esta razón, un motor de búsqueda debe ser escalable y tolerante a fallas por naturaleza.

Clústeres, fragmentación y reequilibrio

Tanto Elasticsearch como Solr brindan soporte para fragmentación, pero, dado que el diseño de Elasticsearch tiene en cuenta el escalado horizontal, tiene un mejor soporte para el escalado y la administración de clústeres. Su desventaja es que los fragmentos no pueden aumentar una vez que se han creado, aunque puede usar una API de reducción para reducir los fragmentos de un índice. Solr admite una mayor división de un fragmento existente, pero no la reducción de fragmentos.

Comunidad

Tanto Solr como Elasticsearch tienen comunidades muy activas. Si se revisa Github, puede ver que son proyectos de código abierto predominantes con muchas versiones.

Es crucial tener en cuenta que aunque ambos se publican bajo la licencia de Apache y ambos son de código abierto, funcionan un poco diferente. Solr es un código abierto: cualquiera puede ayudar y contribuir. Esto quiere decir que si necesitas una función, y la aportas a la comunidad, con suficiente calidad, puede ser aceptada.

Elasticsearch es técnicamente de código abierto pero no completamente. Todos los colaboradores tienen acceso al código fuente y los usuarios pueden realizar cambios y contribuir con ellos. Pero los cambios finales obtienen la confirmación de los empleados de Elastic (la empresa que ejecuta Elasticsearch). Por lo tanto, Elasticsearch está impulsado más por una sola empresa que por una comunidad completa. Esto sin mencionar la cantidad de funciones premium no abiertas que ofrece Elasticsearch (y Elastic/ELK Stack en general).

Por otro lado, las contribuciones a la búsqueda elástica, a través de más controles de calidad, pueden proporcionar una mayor consistencia y calidad.

Documentación

En este aspecto, gana la documentación de Elasticsearch. El sitio web oficial de Elasticsearch no solamente ofrece documentación bien organizada y de alta calidad, con ejemplos claros, sino que Internet está repleto de libros y guías, gracias a la popularidad de la herramienta. Durante los últimos cuatro años, Elasticsearch mejoró su documentación para ir más allá de la organización. Además, ofrece buenos ejemplos e instrucciones de configuración claras.

En comparación, falta documentación de Solr, la cobertura general de las API de Solr es mínima y no es tan sencillo encontrar buenos ejemplos técnicos y tutoriales. Solía ser al revés: Solr era un producto muy bien documentado, con ejemplos claros y contextos para casos de uso de API. Sin embargo, el mantenimiento de su documentación se ha quedado atrás, con lagunas notadas por muchos usuarios.

Resumen

Seleccionar un claro ganador entre estas dos tecnologías requiere una comprensión completa de los casos de uso que admiten, sus conjuntos de funciones, las opciones de escala que ofrecen y su facilidad de mantenimiento.

Aquí hay un resumen de los atributos de cada herramienta:

ítem	Solr	Elasticsearch
Instalación y configuración	Fácil de instalar y configurar, con documentación de apoyo.	Fácil de instalar y configurar con documentación de apoyo. Varios paquetes están disponibles para varias plataformas.
Búsqueda e indexación	Óptimo para búsqueda de texto y aplicaciones empresariales cercanas al ecosistema de big data.	Útil como motor de búsqueda de texto y analítico debido a su poderoso módulo de agregación.
Escalabilidad y agrupamiento	Compatibilidad con la dependencia de Solr Cloud y Apache Zookeeper para la coordinación de clústeres.	Mejor escalabilidad inherente; diseño óptimo para implementaciones en la nube.
Clústeres, fragmentación y reequilibrio	Admite una mayor división de un fragmento existente, pero no la reducción de fragmentos.	Mejor soporte para el escalado y la administración de clústeres, pero los fragmentos no pueden aumentar una vez que se han creado
Comunidad	Es de código abierto: cualquiera puede ayudar y contribuir.	Es de código abierto, pero está impulsado más por una sola empresa que por una comunidad completa.
Documentación	Documentado, poco organizado.	Bien documentado y organizado.