Categorías
cloud elasticsearch kubernetes

Elastic Cloud on Kubernetes

Elastic Cloud on Kubernetes o ECK amplía la capacidad de orquestación de Kubernetes para desplegar, securizar y actualizar tu cluster de Elasticsearch. En este artíulo aprenderás a desplegar Elastic Cloud en un cluster de Kubernetes en Google Cloud. ECK está basado en el patrón kubernetes operator y además de Elasticsearch también soporta la configuración y administración de Kibana. Puedes desplegar sobre la distribución que tú elijas, incluidos Google Kubernetes Engine, Azure Kubernetes Service, Amazon Elastic Kubernetes Service y Openshift.

Las versiones soportadas por ECK son las siguientes:

  • kubectl 1.11 o superior
  • Kubernetes 1.12 o superior o Openshift 3.11 o superior
  • Elastic Stack 6.8 o superior, 7.1 o superior

Google Kubernetes Engine

Lo primero que necesitamos para desplegar a través de ECK es tener disponible un cluster de Kubernetes. Google Kubernetes Engine o GKE es el entorno gestionado de kubernetes de Google Cloud Platform.

Para crear un cluster de kubernetes en Google Cloud Platform tan solo tenemos que entrar en la consola (https://console.cloud.google.com) y una vez que nos hemos autenticado y estamos dentro, entrar en el menú de navegación y seleccionar Kubernetes Engine / Clusters. Una vez dentro pulsamos la opción «Crear clúster«.

Nos aparecerá un formulario para especificar las características de nuestro clúster. Lo primero es darle un nombre, por ejemplo cluster-eck y seleccionamos la zona, por ejemplo europe-west1-c o a europe-west1-b. La versión de kubernetes ya vimos que tenía que ser la 1.12 o superior, así que podemos dejar la que venga por defecto.

En grupo de nodos seleccionamos el tipo de nodo en cuanto a cpu y memoria. Podemos arrancar el clúster con el mínimo de memoria, pero si queremos un deployment de Elasticsearch con varios nodos para alta disponibilidad + un deployment de Kibana, necesitaremos al menos nodos de 7,5Gb.

Cómo se trata de un cluster para probar ECK seleccionamos la opción de clúster público en la categoría Redes.

Pulsamos crear y comenzará a desplegarse el clúster en nuestro proyecto de Google Cloud. Si lo deseamos podemos crear el clúster a través del SDK o de Cloud Shell a través del comando que te ofrece el propio proceso de creación.

Crear clúster desde SDK de Google Cloud
Creación del clúster de Kubernetes completada

Kubernetes Operator

Una vez que tenemos el cluster de kuberntes listo, necesitamos instalar las custom resource definitions y el operador de kubernetes con sus reglas RBAC. Para ello tenemos que tener instalado el cliente kubectl en el SDK de Google Cloud Shell, ya está instalado por defecto en Cloud Shell. Para shell en local ejecutar:

gcloud components install kubectl

Antes de operar el cluster con kubectl necesitamos obtener las credenciales con el siguiente comando y así generar la entrada correspondiente en kubeconfig. Debes modificar la zona y el nombre del proyecto por el que corresponda.

gcloud container clusters get-credentials cluster-eck --zone europe-west1-b --project miprimerproyecto

Fetching cluster endpoint and auth data.
kubeconfig entry generated for cluster-eck.

La instalación del operador de kubernetes se realizaría con el comando:

kubectl apply -f https://download.elastic.co/downloads/eck/1.0.1/all-in-one.yaml

El comando anterior crea en el clúster un namespace llamado elastic-system. Podemos ver los logs del operador con el siguiente comando:

kubectl -n elastic-system logs -f statefulset.apps/elastic-operator

Desplegar un cluster Elasticsearch

Para desplegar un cluster de Elasticsearch, debes aplicar la siguiente especificación. En ella verás que se especifica un único nodo. El nodo debe tener más de 2Gb de memoria o el pod no arrancará adecuadamente:

cat <<EOF | kubectl apply -f -
apiVersion: elasticsearch.k8s.elastic.co/v1
kind: Elasticsearch
metadata:
  name: quickstart
spec:
  version: 7.6.1
  nodeSets:
  - name: default
    count: 1
    config:
      node.master: true
      node.data: true
      node.ingest: true
      node.store.allow_mmap: false
EOF

El operador automáticamente crea el clúster de Elasticsearch con la configuración deseada. Esto lleva algunos minutos hasta que el clúster está preparado para su uso. Puedes ver el estado con el siguiente comando:

kubectl get elasticsearch

NAME         HEALTH   NODES   VERSION   PHASE   AGE
quickstart   green    1       7.6.0     Ready   3m4s

Para acceder a Elasticsearch necesitamos obtener las credenciales de acceso. Un usuario predeterminado llamado elastic se crea automáticamente con la contraseña almacenada en un secreto de Kubernetes:

PASSWORD=$(kubectl get secret quickstart-es-elastic-user -o=jsonpath='{.data.elastic}' | base64 --decode)

Ahora podemos acceder al cluster a través del comando curl:

curl -u "elastic:$PASSWORD" -k "https://quickstart-es-http:9200"

{
  name: "quickstart-es-default-0",
  cluster_name: "quickstart",
  cluster_uuid: "I2jl0QQlT_GEbzFhNUXy2Q",
    version: {
    number: "7.6.0",
    build_flavor: "default",
    build_type: "docker",
    build_hash: "7f634e9f44834fbc12724506cc1da681b0c3b1e3",
    build_date: "2020-02-06T00:09:00.449973Z",
    build_snapshot: false,
    lucene_version: "8.4.0",
    minimum_wire_compatibility_version: "6.8.0",
    minimum_index_compatibility_version: "6.0.0-beta1"
    },
  tagline: "You Know, for Search"
}

Si tenemos SDK Shell en local, en vez de probarlo con un curl como en el párrafo anterior, podemos hacer forward del puerto y probar desde el navegador con el usuario «elastic» y la contraseña obtenida desde los secrets de kubernetes:

kubectl port-forward service/quickstart-es-http 9200

Desplegar Kibana

Para desplegar kibana debemos especificar la siguiente configuración. En ella debemos asociar kibana con el cluster de Elastic:

cat <<EOF | kubectl apply -f -
apiVersion: kibana.k8s.elastic.co/v1
kind: Kibana
metadata:
  name: quickstart
spec:
  version: 7.6.1
  count: 1
  elasticsearchRef:
    name: quickstart
EOF

Puedes ver el estado con el siguiente comando:

kubectl get kibana

NAME         HEALTH   NODES   VERSION   AGE
quickstart   red              7.6.0     4s

Para acceder a kibana podemos ver el servicio creado para kibana:

kubectl get service quickstart-kb-http

NAME                 TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)    AGE
quickstart-kb-http   ClusterIP   10.44.4.49   <none>        5601/TCP   3m57s

Usamos kubectl port-forward para acceder a Kibana desde el pc local:

kubectl port-forward service/quickstart-kb-http 5601

Abrimos en el navegador la url https://localhost:5601 y accederemos a la interfaz de kibana a la que podemos acceder con el usuario elastic y la password obtenida más arriba.

Si has llegado hasta aquí habrás sido capaz de desplegar Elastic cloud en un cluster de Kubernetes en Google Cloud. Se trata de un despliegue básico que puedes ir completando. Si modificas la especificación y aumentas el número de nodos, verás que el clúster irá añadiendo nodos de forma transparente. También puedes añadir nodos para master dedicados, subir de versión, etc. Desde luego se trata de un paso adelante para la orquestación de nuestros despliegues de Elasticsearch. IMPORTANTE: No olvides eliminar tus despliegues y cluster de kubernetes si no quieres incurrir en gastos innecesarios.

Categorías
cloud elasticsearch

Elasticsearch Services en AWS

En este post vamos a comparar los servicios Elasticsearch como SaaS con los que contamos en AWS. Elasticsearch se ha convertido en una de las herramientas más ampliamente usadas para desplegar diferentes capacidades de búsqueda en aplicaciones empresariales.

Elasticsearch fue lanzado como implementación open source por Shay Banon en 2010. Fundó la compañía de búsqueda Elastic en 2015 para vender una versión comercial a través de licenciamiento. Elasticsearch implementa motores de búsqueda optimizados para búsquedas «full text search». Pero Elasticsearch no sólo almacena texto, sino también logs, métricas, lo que permite la analítica del dato, monitorización de aplicaciones y analítica de seguridad.

Elasticsearch puede descargarse de manera gratuita e instalarse en diferentes plataformas en modo servicio o también dentro de contenedores docker. En entornos empresariales existe la posibilidad de desplegar Elasticsearch en Elastic Cloud Enterprise, que se encarga de orquestar múltiples clusters de Elasticsearch on-premise. Otra opción consiste en desplegar Elasticsearch en Kubernetes, a través de un operador de kubernetes creado por Elastic. Para instalar Elasticsearch como servicio gestionado en AWS hay dos enfoques diferentes:

Un tercer enfoque «auto-gestionado» sería instalar el software open source sobre una instancia EC2. Este último requiere más recursos de gestión y más technical expertise.

Amazon ES vs Elastic Cloud

Amazon ES Service y Elastic Cloud ofrecen funcionalidades similares pero difieren en puntos clave. Todas las capacidades son compartidas, como el soporte de Kibana. Kibana es la herramienta que utilizamos para analizar los datos indexados en Elasticsearch. Ambos servicios soportan Beats y Logstash, lo que simplifica la indexación y transformación de los datos. Ambos proveen un fácil despliegue, escalabilidad y requieren menos intervención humana comparándolo con un despliegue manual on-premise o sobre instancias EC2.

Amazon ES Service ofrece una mayor integración con otros servicios AWS:

  • Kinesis Streams
  • Kinesis Firehose
  • CloudWatch Logs
  • Buckets S3
  • Funciones Lambda

Elastic Cloud incorpora herramientas para portar fácilmente desde otros proveedores cloud o desde infraestructura on-premise. Además soporta una variedad de nuevas capacidades que no tiene el servicio de Amazon. Entre ellas están:

  • Data rollups. Usa menos espacio de almacenamiento para resumir y almacenar datos históricos.
  • Elasticsearch SQL Provee nuevas herramientas para consulta a Elastic de la manera tradicional pero con la velocidad increíble de la herramienta.
  • Kibana Spaces. Facilita la creación y organización de dashboards por grupos de usuarios y funcionalidad.
  • Elastic Commercial Plugins. Quizá sea la gran diferencia. Elastic cloud ofrece Seguridad a nivel de acceso a los datos, Reporting, monitorización/alertas y Machine Learning para el entrenamiento y búsqueda de pautas y detección de anomalías. Amazon Elasticsearch Service está incorporando poco a poco su propia implementación de las anteriores funcionalidades basada en Opendistro for Elasticsearch y en muchos casos sólo para nuevos despliegues (ver documentación).
  • Canvas. Para la presentación de los datos.

Claves para elegir AWS ES o Elastic Cloud

  • Elastic Cloud ofrece más control a las organizaciones y requiere menos trabajo de mantenimiento.
  • Si habitualmente trabajas con los servicios de AWS (Kinesis, S3, lambda…), se recomienda utilizar el servicio Elasticsearch de AWS, ya que el mantenimiento y el coste será menor.
  • A favor de Elastic Cloud está el hecho de que incorpora plugins de seguridad, machine learning y alertas. Estas características no están aún incluidas en su totalidad en el servicio de Amazon. La propia Elastic ha creado documentación para indicar las diferencias entre ambos servicios.
  • Otro punto a tener en cuenta es evitar el efecto «vendor lock-in». Cuantos más servicios AWS se utilicen, más duro será salir de allí por razones económicas o técnicas.
  • Por último, organizaciones que utilicen Elasticsearch de manera intensa y como core de su negocio, que quieran el mayor control sobre sus cargas de trabajo, deberían estudiar su propio despliegue y su propia gestión de Elasticsearch.

Categorías
Arquitectura

Balanceo de carga en Redis con Nginx

Vuelvo a la carga con un post de Arquitectura para compartir cómo usar Nginx (tanto la versión Open Source como la versión de pago – Nginx Plus) para balancear la carga entre varios servidores Redis.

Introducción a Nginx y Redis

Nginx es un servidor proxy HTTP inverso, un servidor proxy de correo y un servidor proxy TCP / UDP genérico. Productos similares serían HAProxy y Apache.

Redis es un almacén en memoria de estructuras de datos open-source, utilizado como base de datos, caché y broker de mensajes.

Solución al balanceo de carga

El balanceo de carga se refiere a la distribución del tráfico de red entre múltiples servidores backend. Estamos más acostumbrados a utilizar el módulo HTTP de Nginx utilizándolo de proxy o balancear la carga de tráfico HTTP. Desde hace algunas versiones Nginx admite el balanceo de carga de tráfico tanto TCP como UDP.

Para cambiar la configuración de Nginx debemos modificar el fichero o ficheros de configuración, en el caso de que tengamos varios que luego incluiremos con claúsulas «include«. El fichero de configuración principal por defecto de Nginx generalmente se encuentra en /etc/nginx/nginx.conf:

stream {
 server {
 listen 12345;

 #TCP traffic will be proxied to the "stream_backend" upstream group
 proxy_pass stream_backend;
 }

 server {
 listen 12346;

 #TCP traffic will be proxied a proxied server
 proxy_pass backend.example.com:12346;
 }

 server {
 listen 53 udp;

 #UDP traffic will be proxied to the "dns_servers" upstream group
 proxy_pass dns_servers;
 }
 

 upstream stream_backend {
 server 10.0.18.4:18840;
 server 10.0.18.5:18840;
 server 10.0.18.6:18840;
 }
 
 upstream dns_servers {
 server 10.0.18.4:18840;
 server 10.0.18.5:18840;
 server 10.0.18.6:18840;
 }
}
  1. Crearemos un bloque «stream {}» de primer nivel
  2. Definiremos uno o más bloques «server {}» para configurar cada servidor virtual dentro del bloque stream.
  3. Dentro de cada bloque server definiremos mediante la directiva «listen» el puerto en el que el servidor (nginx) escucha tráfico (si es tráfico udp lo especificamos).
  4. Incluiremos además dentro de «server» la directiva «proxy-pass» para definir el servidor o el grupo de upstreams en los cuales se redigirá el tráfico.
  5. Definimos uno o más bloques «upstream {}» de configuración dentro del bloque «stream» estableciendo un nombre a los mismos.
  6. Añadimos a los upstreams una directiva «server» por cada uno de los servidores Redis junto con su dirección IP y su puerto

Conclusión

Hasta aquí la configuración más básica, podemos especificar además el método de balanceo de carga (round-robin, least_conn, least_time, hash) así como parámetros específicos tanto para el número de conexiones máximo, el peso de cada servidor, etc. Al igual que el tráfico de Redis esta solución es aplicable a todo tráfico de red a través del protocolo TCP/UDP. Tienes más información aquí: tcp-load-balancing

 

 

 

Categorías
Arquitectura

Descubrimiento de Microservicios con Nginx y Consul

En una entrada previa ya traté el enfoque de Microservicios y cómo dividir en servicios de grado más fino, independientes, que exponen un API y que colaboran juntos a través de peticiones HTTP. En esta veremos una solución con Nginx y Consul para el descubrimiento dinámico de microservicios.

Una vez que tenemos unos cuantos microservicios, incluso varias instancias de cada uno para balancear la carga, nuestra atención pasa inevitablemente por conocer dónde están desplegados cada uno de ellos, ya que los mismos pueden «convivir» en el mismo servidor, en diferentes servidores de nuestra infraestructura, o en servicios cloud como el de Amazon. Necesitamos conocer si están o no en ejecución además de su IP y puerto.

La solución pasa por un mecanismo de autoregistro de los microservicios en el momento del despliegue en un catálogo de servicios en «runtime», una forma de decir: «Estoy vivo y me puedes encontrar en esta IP y este puerto». En el momento del «undeploy» debería desregistrarse del mismo.

Consul

Consul es un sistema distribuido open source creado por Hashicorp para el registro de servicios y la configuración de los mismos. Provee un API que permite a los servicios el registro/desregistro en su catálogo. Consul provee igualmente de un chequeo constante de la salud de los servicios, marcando aquéllos que no pasan el mismo. El cluster de Consul se compone de diferentes procesos agente que se encuentran ejecutándose en los mismos servidores en los que se localizan los servicios, de manera que cada servicio se registra en el agente Consul de su servidor. Estos procesos agente pueden ejecutarse en modo cliente o en modo Servidor. Se recomienda ejecutar entre 3 y 5 agentes en modo Servidor.

consul-arch-5d4e3623

Cualquier registro/desregistro en un nodo del cluster se propaga por el mismo. Todos los nodos del cluster conocen el catálogo de servicios (sus nombres, direcciones ip y puertos).

Una vez que tenemos un catálogo «runtime» de servicios necesitamos un proxy inverso como Apache, HAProxy o Nginx que enrute las peticiones y balancee la carga entre las distintas instancias de un servicio. Todas las peticiones llegarán a uno o más proxies y éste será el encargado del enrutamiento. El problema a resolver en este escenario es llegar a hacer dinámica la configuración de Nginx, o del proxy que se desee de los expuestos anteriormente.

La configuración de servicios se realiza en un fichero, por lo que si la misma se modifica (modificando el fichero), Nginx debería recargarse y leer la nueva. Pero, ¿quién se encarga de reescribir la configuración de Nginx cuando el catálogo de Consul recibe un alta o una baja de un servicio?

Consul-Template

Consul-Template es un proceso que se ejecuta en uno de los nodos del cluster de Consul (mismo servidor que uno de los agentes Consul) y es capaz de escribir en un fichero del File System los cambios en el catálogo de servicios a través de una plantilla. Esta plantilla la transforma en un fichero de configuración en disco y cuando finaliza puede ejecutar un comando del sistema, forzando a nginx a recargar la configuración.

$ consul-template \
  -consul my.consul.internal:6124 \
  -template "/tmp/nginx.ctmpl:/var/nginx/nginx.conf:service nginx restart"

Con el comando de arriba se ejecuta el proceso que estará ejecutándose en segundo plano consultando al agente Consul que indicamos en el parámetro -consul. El parámetro -template indica que la plantilla para el rendering del fichero se encuentra en /tmp/nginx.ctmpl y sobrescribe la configuración de nginx en /var/nginx/nginx.conf. Una vez sobreescrito el fichero se ejecuta el comando que recarga la configuración de Nginx, service nginx restart, en el ejemplo de arriba.

All together

En  el siguiente esquema observamos todos los componentes unidos y colaborando tal y cómo se ha expuesto más arriba.

registroServicios

Arquitecturas de este tipo son fáciles de implementar y distribuir incluso si nos vamos a una infraestructura basada en contenedores docker. El sistema es escalable y de alta disponibilidad con la inclusión de varios nodos con Nginx y Consul-Template.

Categorías
Arquitectura

Microservicios – Introducción: ¿Están las empresas preparadas?

Es difícil que no hayas escuchado antes el término Microservicio, e incluso puede ser que hayas entrado en esta página buscando información sobre ello. Se trata de un término muy en boga en la actualidad, aunque también escucharás hablar de «Arquitectura de microservicios» o de que una aplicación sigue dicha arquitectura.

Definición

Cuando hablamos de microservicios nos referimos a un enfoque orientado a sistemas distribuidos que promueven el uso de servicios de grado más fino, con sus propios ciclos de vida, que colaboran juntos a través de peticiones HTTP a sus API.

Debido a que los microservicios se modelan en torno a los dominios de negocio, se evitan los problemas de arquitecturas en capas y monolíticas tradicionales.

Además cada microservicio es independiente y su código debe ser desplegado sin afectar a los demás. Cada uno de ellos puede escribirse en el lenguaje de programación más adecuado, ya que sólo exportan la API.

Ventajas

Los microservicios por tanto son un nuevo enfoque de las aplicaciones tradicionales, en las cuales teníamos un servidor ejecutando el código de la aplicación en un archivo war. Cada vez que algún módulo / servicio sufría un cambio, debíamos subir a producción de nuevo todo el código, incluyendo los módulos no modificados. En el caso de que haya un módulo de la aplicación que se encuentre saturado de peticiones y queramos balancear la carga, es necesario replicar toda la aplicación en otro servidor.

Frente al enfoque tradicional y en vez de tener un único ejecutable, cada servicio se ejecuta en su propio proceso, comunicándose entre si mediante llamadas a sus respectivas API. Cada microservicio, por tanto se puede desplegar de forma autónoma, de manera que dicho despliegue no afecta a los demás microservicios. Son más fáciles de escalar ya que en vez de replicar toda la aplicación, lo haremos sólo de los microservicios con más carga.

microservicios-fowler

Otras ventajas de esta arquitectura es que se reduce el «Time to market» debido a que evita retrasos en la integración de la nueva funcionalidad en la aplicación monolítica. No hay unanimidad sobre esto, ya que diferentes autores indican que debido a la naturaleza distribuida de la aplicación el time to market será mayor. A continuación se enumeran las ventajas de este enfoque:

  • Los servicios son muy simples, enfocados en hacer una cosa y hacerla bien. Algunos autores aseguran que Microservicios es SOA bien hecho.
  • Cada servicio puede ser construido utilizando la mejor herramienta y la más apropiada para el trabajo que va a realizar.
  • Se trata de sistemas débilmente acoplados.
  • Múltiples desarrolladores y equipos pueden realizar entregas de manera independiente.
  •  Facilita la entrega continua, permitiendo lanzamientos frecuentes, manteniendo el resto del sistema disponible y estable.

Desventajas

Pero no todo son ventajas y un sistema basado en Microservicios posee una complejidad añadida:

  • Un gran número de microservicios son difíciles de orquestar.
  • Dificultad para gestionar y realizar test de las dependencias.
  • Aplicación no uniforme. Poder elegir entre diferentes tecnologías conlleva diseños de aplicación y arquitectura no uniformes, lo que puede incrementar el coste de mantenimiento a largo plazo.
  • Complejidad DevOps. Es necesario tener un equipo Dev Ops maduro para manejar la complejidad en mantener aplicaciones basadas en microservicios.
  • Incremento del uso de recursos. La inversión inicial para ejecutar estas aplicaciones es alto, debido a la ejecución independiente de cada componente en su propio proceso o contenedor de ejecución (más RAM y CPU).
  • Incremento de la comunicación por la red. Este sistema requiere conexiones confiables y rápidas.
  • Marshalling – Unmarshalling. Cuando un servicio requiere datos de otro, el llamante encapsula los datos en algún estándar desde su representación interna, mientras que el llamado realiza una la operación contraria para operar con dichos datos. Esto requiere más procesamiento en comparación con una arquitectura de aplicación convencional.
  • Seguridad en la red. La comunicación entre servicios necesita ser securizada para evitar brechas de seguridad. Debido a la composición de diferentes módulos «movibles», estas aplicaciones son más vulnerables en cuanto a seguridad.
  • Testing. Incremento de la complejidad para realizar testing de estas aplicaciones en comparación con aplicaciones monolíticas.
  • Monitorización en producción. El coste de monitorizar esta aplicación es mayor y la no disponibilidad de las herramientas adecuadas es un tema a ser considerado.
  • Logs y trazas. nos encontramos con una fuente inagotable de logs generados por cada uno de los procesos, por los contenedores que ejecutan los microservicios y por el propio servidor físico o virtual.
  • Transaccionalidad en las operaciones. Los microservicios por naturaleza son «stateless, por lo que se ve la necesidad de una tercera capa de persistencia y gestión de la transaccionalidad.

implement-microservices

Conclusiones

Se trata de un enfoque que no es nuevo pero en el que muchas empresas están poniendo el foco debido a la complejidad a la que han llegado sus aplicaciones empresariales. La Arquitectura de microservicios no es para todo el mundo pero se adapta perfectamente a aplicaciones enterprise o proyectos que seguro van a escalar. La velocidad gana en el mercado y la idea de Microservicios es ganar en velocidad, pero también supone cambios en la empresa, empezando por integrar primero DevOps y herramientas de DevOps en la misma. ¿Están las empresas preparadas para dar el paso a Microservicios?