Bioinformática: del wet al dry, y al web lab
Miguel Romero Cuevas
Doctor en biología y licenciado en bioquímica. Secretario General de la Fundación eSalud y Técnico de proyectos de la Red de Trastornos Adictivos, Fundación IMABIS.
Resumen
El gran desarrollo de las tecnologías moleculares y de cribado de alto rendimiento ha propiciado en las tres últimas décadas un gran aumento de los datos biológicos producidos. Sin embargo, este aumento de información no siempre conlleva un aumento del conocimiento de los procesos biológicos. Es por ello que las ciencias de la vida han incorporado en su quehacer diario las tecnologías de la información junto con otras ciencias como herramientas de trabajo, dando lugar a un nuevo campo denominado bioinformática. Esta nueva disciplina sigue en continua evolución desde los primeros desarrollos en ejecución, mantenimiento, gestión y acceso a la información a nivel local de los propios grupos de investigación hasta las nuevas posibilidades para compartir recursos e información que están surgiendo gracias a las tecnologías web.
1. La revolución de las “ómicas” en el wet-lab
Nota: Sobre todo en el campo de las ciencias de la vida, los términos wet-lab o wet laboratory se utilizan para definir los laboratorios donde se realizan experimentos clásicos en los que se manipulan muestras reales, para distinguirlos así de los experimentos realizados con modelos en computadoras o dry-lab.
Durante los últimos 30 años se ha producido un espectacular desarrollo de las herramientas moleculares que ha propiciado una auténtica revolución en las ciencias de la vida, caracterizada por un nuevo enfoque en la manera de trabajar mediante un intercambio constante de teorías y metodologías entre áreas del conocimiento tradicionalmente estancas (química orgánica, bioquímica, biología molecular, biología celular, genética, etc.). Esto ha llevado a que cada vez sea más difícil trazar los límites entre unas y otras áreas, y comiencen a aparecer disciplinas con una nueva forma de clasificación basada en su objeto de estudio, las denominadas “ómicas”.
En una primera etapa, los estudios se centraron en el conjunto de los genes de una especie dada, lo que se denomina genoma. Por tanto, siguiendo las normas clásicas de nomenclatura, a la disciplina que estudia la función, regulación y transmisión del genoma se la denominó genómica, cuyo primer gran éxito fue la culminación del primer borrador del genoma humano, que se presentó conjuntamente por el presidente Bill Clinton y el primer ministro Tony Blair el 26 de junio del año 2000, dos años antes de lo previsto. Este hecho constituyó el primer gran hito de esta nuevo modelo de trabajo, pero también sirvió a la comunidad científica para darse cuenta de que el camino no había hecho más que empezar, y ahora se abría un amplio abanico de campos por descubrir, comenzando por el siguiente nivel de complejidad que eran las distintas formas en que esos genes se podían transcribir a ARN, es decir, el transcriptoma. La evolución natural de la lógica científica llevó también a preguntarse sobre los resultados de los procesos de traducción, es decir, el conjunto de proteínas de una especie o proteoma, y aún más allá, como interaccionan esas proteínas, el interactoma. Así, cada vez se han generado más preguntas y de mayor complejidad sobre el metaboloma (metabolitos), el citoma (organización celular), o el fisioma (órganos y tejidos) hasta llegar hoy día a hablarse de más de 100 disciplinas “ómicas” [1,2].
De esta evolución de la experimentación en el laboratorio clásico se puede concluir que los investigadores han tomado conciencia sobre la factibilidad de abordar experimentalmente una serie de problemas hasta ahora inasequibles con lo que se hacen cada vez más preguntas, lo que se puede traducir en la producción de una, cada vez mayor, cantidad de información en forma de datos. Una segunda conclusión que se puede extraer es que estas disciplinas pueden hacerse preguntas de mayor complejidad y , por tanto, generar datos más complejos. Por lo tanto, podemos decir el resultado de la revolución del wet-lab es que nos encontramos con más datos y más complejos.
Para hacernos una idea de la magnitud, es suficiente recordar que según estudios, se estima que el genoma humano tiene entre 20.000 y 25.000 genes que pueden codificar entre 40.000 y 60.000 proteínas, y que cada una de estas proteínas hace una media de unas 4 interacciones, resultando unas 240.000 interacciones de proteínas distintas en la especie humana, que generan otros tantos datos si se estudian a nivel estructural para crear modelos tridimensionales de complejos de proteínas hasta formar estructuras celulares, tejidos...
Figura 1: Representación gráfica de la relación entre la posible cantidad de datos del genoma, proteoma e interactoma
2. El salto al dry-lab
Ante esta “revolución de los datos”, se plantea un problema aún mayor, y es el tratamiento de los mismos para alcanzar el grado de comprensión requerido para que sean útiles para la sociedad. En este punto es donde irrumpe con un papel cada vez mayor la utilización de las tecnologías de la información apoyadas por los métodos teóricos de otras tantas áreas del conocimiento como la estadística, la lingüística, la documentación, las ciencias de la información… y que se pueden agrupar bajo el nombre de bioinformática. Con la bioinformática se produce una modificación en la que la poyata del wet-lab, se cambia por la unidad central de procesamiento del ordenador, es por ello, que a este nuevo espacio se le denomina dry-lab.
El primer reto al que se tuvo que enfrentar la bioinformática fue el dar respuesta a las necesidades de almacenamiento, clasificación y análisis de la cantidad ingente de información. Para ello, la estrategia inicial que se utilizó fue que los propios grupos de investigación se dotaran de las infraestructuras necesarias y se empezaran a especializar determinados investigadores en su mantenimiento, uso y desarrollo de nuevos métodos y técnicas de manejo de la información. Comenzaron a implementarse bases de datos locales y algoritmos de búsqueda y comparación “ad hoc”. Los distintos grupos fueron constatando que utilizando las computadoras, un investigador puede ser de 10 a 100 veces más eficiente que utilizando experimentos wet-lab solamente. La bioinformática puede identificar los experimentos críticos necesarios para resolver la pregunta de interés. El biólogo o bioquímico que es capaz de sacar rendimiento a todas las posibilidades de la bioinformáitca está, sin duda, a un nivel de ejecución mayor que aquellos que no pueden.
La bioinformática se ha convertido en una herramienta imprescindible en la investigación en ciencias de la vida, donde además de coexistir grupos de investigación clásicos que realizan experimentos “in vitro” e “in vivo” también existen grupos que realizan sus experimentos “in silico”.
3. Del dry-lab a la oferta web
La integración de la bioinformática en el trabajo diario en ciencias de la vida, la ha llevado a seguir evolucionando de la mano de las ”ómicas” y empezar a desarrollar el campo de las tecnologías de simulación y modelización, las cuales llevan a la biología predictiva. Las primeras simulaciones comenzaron de los sistemas más simples a nivel molecular, para ir aumentando el nivel. Así, la tendencia es a crear catálogos de interacciones entre proteínas, y en un futuro, de estructuras tridimensionales de estas interacciones y su agrupación en funciones celulares. Estas darán paso a las redes de esas interacciones en tiempo real, lo que facilitará crear, en primer lugar, funciones celulares virtuales, después células y órganos virtuales y, finalmente, individuos virtuales. Hoy día, ya se están realizando simulaciones a nivel celular y todo apunta a que se podrá predecir el fenotipo de un organismo basado en sus datos genómicos y condiciones medioambientales.
Figura 2: Modelos de distintos niveles de organización desde genes a proteínas, téjidos, órganos y finalmente el organismo completo [3]
El aumento en número y complejidad de los experimentos tanto en el wet-lab como en el dry-lab están produciendo dos efectos principales, por un lado, las infraestructuras tecnológicas con las que cuentan los grupos de investigación no pueden cubrir la demanda de las herramientas creadas. Por otro lado, los grupos de bioinformática está desarrollando tal cantidad de herramientas, bases de datos, etc... que incluso para los propios bioinformáticos es difícil conocer todas las posibilidades que tienen a su alcance.
Ante estos nuevos retos, los distintos grupos e instituciones han comenzado a aplicar medidas de contención. Con respecto de las crecientes demandas de mayor poder computacional, se están instaurando sistemas de clusters de ordenadores y se están adpatando los algoritmos y procedimientos para su ejecución paralela a pequeña escala. Estas soluciones, si bien están permitiendo desarrollar y probar nuevos algoritmos y soluciones, todavía resultan insuficientes para el tratamiento de datos masivos. En segundo lugar, las soluciones más viables para mantener a los investigadores puestos al día pasan por la creación de bases de datos o listados públicos de los desarrollos bioinformáticos.
Finalmente, los costes asociados a estas soluciones locales superan con creces la capacidad de prácticamente cualquier grupo o entidad aislada, aún recurriendo a soluciones paralelas de bajo coste. Por lo tanto, todas estas soluciones paracen ir en la misma dirección hacia una mejora sustancial en la compartición de recursos entre grupos de forma solidaria hasta reunir recursos suficientes para abordar los problemas experimentales. Frente a los supercomputadores, las tecnologías GRID están permitiendo el aumento de la capacidad computacional a unos costes asumibles por los grupos de investigación, y además, la web 2.0 está proveyendo de mecanismos para una compartición y difusión de la información y del trabajo entre los grupos. Esto nos lleva a la evolución natural de la bioinformática desde aplicaciones y recursos locales hacia los recursos globales, pasando del dry-lab en el ordenador personal (PC) al dry-lab en Internet o web-lab.
Al igual que otras tantas disciplinas, la evolución natural de las ciencias de la vida en general y de la bioinformática en particular pasa por Internet y las tecnologías web. No en vano, estas tecnologías presentan un medio sin comparación para difundir recursos de todo tipo para los investigadores en ciencias de la vida. Hoy día, los científicos pueden fácilmente publicar en la web los resultados de sus investigaciones o comparar sus resultados con descubrimientos anteriores espoleando la innovación y el descubrimiento. El gran valor de poder acceder a los datos de otros grupos está propiciando el incremento de la capacidad de colaboración. Además, esta mejora en la colaboración no sólo se está dando en el acceso a los datos de investigación, sino en la compartición de recursos y herramientas computacionales. Estas ventajas han producido un aumento espectacular de los recursos web desarrollados y ofertados por los distintos grupos de investigación.
Con el propósito de identificar las contribuciones registradas en tres de las revistas más importantes en bioinformática presentes en la Web of Science, se procedió a realizar una búsqueda bajo el término "web" entre los años 2000 y 2006 en las revistas : BMC Bioinformatics, Bioinformatics y Nucleic Acids Research. Se pudo comprobar como en todos los casos los recursos publicados siguen una línea ascendente (figura 3), pasando en el caso de BMC Bioinformatics de 0 artículos referentes a la web en el año 2000 a 282 en el año 2006, o de 116 en el año 2000 a 409 en 2006 en la revista Nucleic Acid Research. Pero este espectacular crecimiento está acarreando nuevos problemas como son el desconocimiento de la existencia y de fuentes para la búsqueda de todas las herramientas posibles para llevar a cabo una determinada investigación.
En un principio, la literatura científica parece el mejor lugar para buscar información, sin embargo, sus publicaciones sólo representan una fotografía de todas las herramientas en el momento de su lanzamiento, por tanto, se debe contar con otras fuentes como posibles buscadores especializados en Internet. Además, también se presenta la problemática de que no existe una estandarización de terminología, lo que dificulta todavía mucho la búsqueda de información. En este sentido se están llevando a cabo iniciativas como “The Molecular Biology Database Collection” [4] y el “Bioinformatics Links Directory” [5] en la que se puede encontrar 2.381 recursos clasificados en los siguientes campos: Computacionales, ADN, Educación, Expresión, Genoma Humano, Literatura, Modelos de Organismos, Otras Moléculas, Proteínas, ARN y Comparación de Secuencias.
Figura 3: Evolución del número de artículos que hacen referencia a herramientas web en tres revistas del campo de la bioinformáitca: BMC Bioinformatics, Bioinformatics, Nucleic Acids Research
Todas estas iniciativas están permitiendo tener conocimiento de las herramientas bioinformáticas accesibles en Internet, lo que está mejorando y aumentando su utilización por grupos de investigación, que está desencadenando la segunda evolución del web-lab aprovechando las características de la web 2.0. Esta evolución es la personalización de las herramientas mediante la utilización de servicios web.
4. La evolución al web-lab 2.0
Aunque la evolución natural de las técnicas bioinformáticas debía encauzarse hacia servicios centrales y estándares para la ejecución, mantenimiento, gestión y acceso, esto no se está cumpliendo debido a distintas razones económicas o de necesidades de infraestructuras físicas de gran envergadura. Sin embargo, la transición de Internet desde el paradigma de las páginas web estáticas a los servicios dinámicos ofrece nuevas oportunidades para los bioinformáticos con respecto de la integración, transformación y difusión de los datos. En este sentido, los servicios web aparecen como nueva herramientas que proveen transporte sobre protocolos estándares como el HTTP y mensajes XML, así que se consigue que sean independientes de las plataformas; se pueden diseñar interfaces estándar descritos por WSDL; se puede publicar y obtener datos a través de registro UDDI; o se puede implementar software en la web con un esfuerzo y recursos limitados. Esto es, sin la necesidad de grandes infraestructuras, se pueden desarrollar soluciones para la integración web de herramientas locales de distintos grupos según demanda. A efectos prácticos se puede llegar a personalizar una interfaz de usuario según el flujo de trabajo necesitado[6].
Figura 4: Servicios web como capa intermedia para la cosulta de bases de datos
Pensemos en que se puede entrar en una página web en la que nos autenticamos y en cierto panel tenemos un conjunto de interfaces de herramientas bioinformáticas (APIs) que nos dan el resultado de una consulta o un determinado cálculo sobre una base de datos. Vayamos más allá, imaginemos que podemos montar un entorno de trabajo con ciertas ventanas internas al estilo de iGoogle y, primeramente, colocamos la ventana con la que mandamos una consulta sobre una secuencia genética, que hemos encontrado que se da con mayor frecuencia en las personas con un determinado cáncer, a una base de datos del genoma humano y obtenemos la región del genomay el posible gen donde se encuentra esa secuencia. El resultado de esta región genómica lo lanzamos a una nueva ventana que hemos arrastrado hasta nuestro espacio de trabajo que predice la posible secuencia de una proteína que se traduce de esa parte del genoma. En un tercer paso, abrimos una ventanita en la que podemos copiar y pegar la secuencia de la proteína para que lance un cálculo a un servidor que nos devolverá la posible estructura tridimensional de esa proteína, a la cual calculamos con una nueva API su posible centro activo, que utilizaremos en una próxima ventana para buscar moléculas disponibles en bases de datos, que puedan unirse para desencadenar una determinada respuesta farmacológica.
En un ordenador personal sin más requerimientos técnicos que una conexión a Internet tenemos nuestra poyata de trabajo virtual desde la que acabamos de encontrar un posible fármaco personalizado candidato frente a un tipo de cáncer. Tampoco es tan difícil de imaginar y, de hecho, ya hay proyectos que nos están acercando a estos entornos.
Un ejemplo es el proyecto Taverna, tal como se describe, permite a biólogos y bioinformáticos con pocos conocimientos de programación y limitados recursos tecnológicos construir herramientas de análisis complejas sobre recursos de computación compartidos por distintos grupos o instituciones públicas o privadas.
Otros proyectos, como el español CARGO que es un entorno capaz de incorporar información desde bases de datos y repositorios dispersos y presentar los resultados en un entorno simple e intuitivo y de manera coordinada.
Para finalizar, se puede concluir que la evolución de todas las ciencias de la vida sigue en continua ebullición desarrollándose de la mano de las tecnologías de la información y comunicación, presentando cada vez más servicios, más especializados y de más fácil uso para una más rápida transferencia a la sociedada de esas “píldoras” de conocimiento que podrán curar patologías.
5. Referencias
- Biopharmaceutical Glossary, Taxonomies.
- OMICSGateway
- Hunter, PJ. y Borg TK. Integration from proteins to organs: the Physiome Project. Nat Rev Mol Cell Biol. 2003;4(3): 237-43.
- Galperin. MY. The Molecular Biology Database Collection: 2007 Update. Nucleic Acids Research. 2007; 35, Database Issue D3-D4.
- Fox, JA. et al. Conducting Research on the web: 2007 update for the Bioinformatics Links Directory. Nucleic Acids Research. 2007: 1-3.
- De Knikker, R. et al. A web services choreography scenario for interoperating bioinformatics applications. BMC Bioinformatics. 2004; 5: 25-36.












