La versión más avanzada del modelo de Inteligencia Artificial (IA) que desarrolla Google, Gemini 1.5 Pro, es capaz de analizar y detectar código malicioso en unos 30 segundos.
Así lo han podido comprobar recientemente el equipo de VirusTotal. La compañía presentó esta última generación de su modelo el pasado mes de febrero.
En ese entonces, adelantó que introducía una nueva arquitectura con la que era capaz de realizar tareas complejas de forma más ágil y con un rendimiento y un razonamiento mejorados.
ARQUITECTURA MIXTURE-OF-EXPERTS (MOE)
Esta versión de su IA funciona con la arquitectura Mixture-of-Experts (MoE), que divide el modelo en pequeñas redes neuronales.
Estas últimas, según detallaron, se activan de forma selectiva dependiendo del tipo de información introducida.
Este modelo también puede analizar, clasificar y comprender contextos largos, ya que tiene la capacidad de procesar hasta un millón de tokens.
Por ejemplo, una hora de vídeo, once horas de audio, bases de código con más de 30.000 líneas de código o más de 700.000 palabras.
RECONOCER AMENAZAS DEL DÍA CERO
El equipo de VirusTotal, que pertenece a Google, comprobó recientemente la capacidad que tiene este modelo de IA para identificar código malicioso.
Además, lograron destacar su capacidad para reconocer amenazas de día cero (‘zero day’).
En primer lugar, subrayó en un comunicado que el crecimiento “explosivo” de este tipo de ataques “continúa desafiando los métodos de análisis manuales tradicionales”.
En esa línea, agregaron que esto “subraya la necesidad urgente de una mejor automatización y enfoques innovadores”.
AYUDAR A GESTIONAR EL VOLÚMEN ASIMÉTRICO DE AMENAZAS
En este contexto, Gemini 1.5 Pro se diseñó para ayudar a los analistas “a gestionar el volumen asimétrico de amenazas de forma más efectiva y eficiente”.
Por este motivo es que puede funcionar como “un poderoso asistente” y se puede emplear para detectar código malicioso.
Hasta ahora las técnicas tradicionales para el análisis automatizado de ‘malware’ se dividen en dos. En primer lugar, el análisis estático, que implica examinarlo sin ejecutarlo.
Por otro lado, está el dinámico, que indica lo contrario, llevando a cabo esta tarea en un entorno controlado para monitorizar su comportamiento.
UN EMPLEO CADA VEZ MÁS FRECUENTE
En este sentido, Google indicó que, paralelamente a estos métodos, la IA y el aprendizaje automático (‘machine learning’) se emplearon “cada vez más”.
El objetivo de su uso era para, en base a lo informado por la empresa, “clasificar y agrupar el ‘malware’ en función de patrones de comportamiento y anomalías”.
Así lo quiso demostrar con Code Insight, presentado en la feria de ciberseguridad RSA Conference 2023.
SE EMULA EL ENFOQUE DEL ANALISTA
Se trata de una plataforma especializada en analizar fragmentos de código y generar informes en lenguaje natural, emulando el enfoque de un analista de ‘malware’.
Para complementar el trabajo de Code Insight, que tiene una capacidad limitada de entrada de tokens, el equipo de VirusTotal ha trabajado con Gemini 1.5 Pro.
Este último admite hasta un millón de tokens y puede analizar algunos ejecutables descompilados “en una sola pasada”.
Gracias a esto, elimina la necesidad de dividir el código en fragmentos más pequeños.
INTERPRETAR LA INTENCIÓN Y EL PROPÓSITO
Este modelo también puede interpretar la intención y el propósito del código y no únicamente identificar patrones.
Esto es posible gracias a su entrenamiento con un conjunto de datos de código, que abarca el lenguaje de diferentes arquitecturas.
De esta manera, Gemini puede emular el razonamiento y el juicio de un analista de ‘malware’ , predecir sus acciones y proporcionar información sobre las amenazas.
Entre estas últimas, se incluyen aquellas que no se hayan visto anteriormente (‘zero-day’).
GEMINI PUEDE CREAR INFORMES RESUMIDOS
Por último, Google apuntó que la última iteración de su modelo de IA puede generar informes resumidos en un lenguaje legible para humanos.
Según detallan, esto hace que el proceso de análisis “sea más accesible y eficiente”.
Para probar la eficacia de Gemini 1.5 Pro en al detección de código malicioso, VirusTotal lo utilizó para analizar código descompilado con una muestra de ‘malware’ representativa.
Así, procesó dos archivos binarios del ‘ransomware’ WannaCry -uno de 268 KB y 231 KB- contenedores de más de 280.000 tokens.
Cabe destacar que en sus pruebas con otras herramientas de IA generativas similares tuvo que dividir el código en fragmentos para su estudio, lo que generó “resultados vagos y no específicos”.
UN PROCESO EN TAN SOLO 34 SEGUNDOS
Sin embargo, con Gemini 1.5 Pro, no se vio en esa necesidad, ya que fue capaz de procesar todo el código desensamblado o descompilado en una sola pasada y entregar un informe en 34 segundos.
La descompilación del código consiste en construir el código fuente original a partir del binario, lo que puede mejorar su legibilidad y la concisión en comparación del código ensamblado.
La diferencia está en que este últimoe pasa por un proceso en el que el códig
MANEJAR DATOS DE FORMA TRANSPARENTE
Según Google, este análisis inicial fue “notablemente preciso” y mostró su capacidad para manejar conjuntos de datos grandes y complejos de manera transparente y efectiva”.
Asimismo, en este comunicado aclaró que no se basa en conocimientos previamente entrenados sobre WannaCry.
Esto significa que el análisis surge de la capacidad de Gemini de interpretare código desconocido y malicioso de forma independiente.
LA MISMA CAPACIDAD PARA LOS PROCESAMIENTOS DE LENGUAJE DE ALTO NIVEL
Los investigadores también señalaron que Gemini 1.5 Pro demuestra la misma capacidad tanto en el procesamiento de lenguajes de alto nivel como en el ensamblaje de diversas arquitecturas.
Esto implica que se puede adaptar el análisis de archivos posiblemente maliciosos según las circunstancias específicas de cada caso.
PRUEBAS CON AMENAZAS DE DÍA CERO
El equipo de investigadores también probó la capacidad de Gemini 1.5 Pro para identificar amenazas de día cero que no son detectadas por los métodos tradicionales.
Ejemplo de esto pueden ser el antivirus o el ‘sandbox’ de VirusTotal.
Según sus hallazgos, el modelo de Google pudo procesar un archivo de 833 KB descompilado en 189.080 tokens en tan solo 27 segundos.
En ese período de tiempo produjo un informe completo del análisis del ‘malware’ en una sola pasada.
EL OBJETIVO PRINCIPAL DEL MALWARE
Además de identificar patrones maliciosos, Gemini 1.5 Pro descifró cuál era el objetivo principal de este ‘malware’.
La intención, se indicó, era robar criptomonedas secuestrando transacciones de Bitcoin y evadiendo su detección al desactivar el ‘software’ de seguridad.
SE DESBLOQUEAN CAPACIDADES IMPRESIONANTES
Finalmente, Google reconoció que el modelo “desbloquea capacidades impresionantes” al poder analizar grandes volúmenes de código descompilado y desensablado.
No obstante, apuntó que aún quedan desafíos por abordar “para lograr un análisis de ‘malware’ automatizado verdaderamente sólido y de confianza”.
Entre ellos, técnicas de ataque en constante evolución, por lo que los desarrolladores deben “aprender y reconocer nuevas amenazas”.
Fuente: EP.