OChemR: a machine learning approach for (bio) chemical reaction digitalization

Data de publicació

2026-02-02T14:09:57Z

2026-02-02T14:09:57Z

2025-06-10



Resum

Treball de fi de grau en Bioinformàtica. Curs 2024-2025


Tutor: Daniel Probst


Artificial intelligence is increasingly applied across scientific disciplines, including chemistry and biology, achieving breakthroughs once thought impossible. However, training these models requires large amounts of structured data. A key bottleneck in computational chemistry and biology is the digitalization of (bio)chemical reaction schemes from scientific literature into structured formats. The manual extraction of reaction details from heterogeneous visual representations is time consuming and limits the scalability of data-driven research. In an effort to address this issue we present OChemR, a new tool that aims for a fast and easy conversion from visualreaction schemes from scientific literature into an editable,computer-readable annotation of the reactions. By combining computer vision models with other algorithms, we aim to reduce the need for manual data curation, simplifying the incorporation of chemical reaction schemes from scientific literature into computational workflows by converting visual data into standardized notation.


L'extracció manual de detalls de reacció de representacions visuals heterogènies requereix molt de temps i limita l'escalabilitat de la recerca basada en dades. En un esforç per abordar aquest problema, presentem OChemR, una nova eina que té com a objectiu una conversió ràpida i fàcil d'esquemes de reacció visual de la literatura científica a una anotació editable i llegible per ordinador de les reaccions. Mitjançant la combinació de models de visió per computador amb altres algorismes, pretenem reduir la necessitat de curació manual de dades, simplificant la incorporació d'esquemes de reaccions químiques de la literatura científica als fluxos de treball computacionals mitjançant la conversió de dades visuals en notació estandarditzada.


La extracción manual de detalles de reacción de representaciones visuales heterogéneas requiere mucho tiempo y limita la escalabilidad de la investigación basada en datos. En un esfuerzo por abordar este problema, presentamos OChemR, una nueva herramienta que tiene como objetivo una conversión rápida y fácil de esquemas de reacción visual de la literatura científica a una anotación incentivables y legible por ordenador de las reacciones. Mediante la combinación de modelos de visión por computador con otros algoritmos, pretendemos reducir la necesidad de curación manual de datos, simplificando la incorporación de esquemas de reacciones químicas de la literatura científica a los flujos de trabajo computacionales mediante la conversión de datos visuales en notación estandarizada.

Tipus de document

Projecte/Treball fi de carrera o de grau

Llengua

Anglès

Citació recomanada

Aquesta citació s'ha generat automàticament.

Drets

This is an Open Access article distributed under the terms of the Creative Commons Attribution-NonCommercial-NoDerivs 3.0 license

Attribution-NonCommercial-NoDerivatives 4.0 International

https://creativecommons.org/licenses/by-nc-nd/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)