Sci-Stalker: Software de IA que rastrea la conversión de resúmenes del congreso en publicaciones científicas
Desarrollado bajo el liderazgo del Dr. Emre Gecer, Sci-Stalker es un software de investigación automatizado que utiliza datos de OpenAlex, PubMed y CrossRef para rastrear si los resúmenes presentados en congresos médicos se convierten en publicaciones científicas revisadas por pares.
Desarrollado bajo la dirección del Dr. Emre Geçer, Sci-Stalker es un software de investigación automatizado diseñado para rastrear si los resúmenes (abstracts) presentados en congresos médicos se transforman, con el paso de los años, en publicaciones científicas revisadas por pares.
Cientos de estudios se presentan en cada congreso médico. Estos resúmenes a menudo llevan los últimos rastros de la práctica clínica, la producción académica y la curiosidad científica. Sin embargo, rara vez se sabe, de manera sistemática, cuántos de estos estudios se convirtieron posteriormente en artículos de revistas, cuáles encontraron un lugar en la literatura científica y cuáles permanecieron en las actas del congreso y se perdieron.
Sci-Stalker se centra precisamente en esta pregunta: ¿un estudio científico presentado en un congreso se convierte, con el tiempo, en una publicación revisada por pares? El software ofrece una infraestructura que sigue el camino invisible entre los resúmenes de congreso y las publicaciones científicas, hace medible el destino de la producción académica y añade una nueva capa de seguimiento al ecosistema de investigación.
¿Qué hace Sci-Stalker?
Sci-Stalker parte de un libro de actas de un congreso como punto de partida. A partir de este documento PDF extrae las presentaciones, identifica a los autores, estructura los títulos y los textos, y a continuación busca estos datos en bases de datos científicas internacionales.
Utilizando fuentes como OpenAlex, PubMed y CrossRef, el software establece coincidencias basadas en evidencia entre los resúmenes de congresos y los artículos posteriormente publicados. Para cada resumen, se evalúa el estado de publicación en cuatro niveles de evidencia:
- EXACTO — una coincidencia directa y precisa.
- PROBABLE — una coincidencia de alta probabilidad.
- POSIBLE — una posible coincidencia que requiere una revisión cuidadosa.
- NO_EVIDENCIA — un resumen para el cual no se encontró evidencia de conversión a publicación.
Esta estructura permite leer la producción académica no solo en términos numéricos, sino también en términos de niveles de evidencia.
¿Por qué importa?
Los congresos médicos suelen ser el primer lugar donde los resultados científicos se hacen visibles. Un estudio suele presentarse primero en forma de charla oral o póster; luego se amplía, se envía a una revista con revisión por pares y entra en la literatura científica. Sin embargo, este proceso no siempre se completa.
Algunos resúmenes se convierten en artículos sólidos. Algunos se publican años después. Otros aparecen con títulos completamente diferentes. Y algunos permanecen en las actas de conferencias y nunca entran en la circulación científica.
Sci-Stalker saca a la luz este territorio incierto. Ayuda a analizar de forma sistemática qué resúmenes se han convertido en publicaciones, en qué campos las tasas de conversión son altas, en qué años la producción ha sido más intensa y qué estudios no han dejado rastro en la literatura. Por este motivo, Sci-Stalker no es solo un proyecto técnico de software; es una herramienta importante para la transparencia académica, la trazabilidad científica y la evaluación de la calidad de la investigación.
Primera aplicación: TOTDER 2011–2024
La primera aplicación a gran escala de Sci-Stalker se llevó a cabo sobre los resúmenes de congresos de la Asociación Turca de Ortopedia y Traumatología (TOTDER). Se analizaron catorce años de datos de congresos, desde 2011 hasta 2024.
En este estudio inicial, se evaluaron 898 presentaciones en congresos y 1.375 autores únicos. Después de eliminar los registros duplicados, el conjunto de publicaciones extraídas de PubMed y CrossRef alcanzó un espacio de búsqueda de 100.276 publicaciones científicas. Los primeros resultados ofrecen una imagen reveladora de con qué frecuencia los resúmenes de congresos se convierten en publicaciones científicas.
TOTDER 2011–2024: Primeros resultados
- Años del Congreso analizados: 2011–2024
- Presentaciones totales: 898
- Autores únicos: 1,375
- Piscina de publicación: 100,276
- Coincidencia exacta de publicación confirmada (EXACT): 182 (20,3%)
- Coincidencia de publicación de alta probabilidad (PROBABLE): 30 (3,3%)
- Posible coincidencia de publicación (POSIBLE): 10 (1,1%)
- Resúmenes sin evidencia de publicación (NO_EVIDENCIA): 670 (74,6%)
Estos resultados se basan en datos de PubMed y CrossRef. Con la integración en curso de OpenAlex, se espera que las cifras finales aumenten.
Cómo funciona el software
La lógica de Sci-Stalker recorre, paso a paso, la cadena que va desde las actas del congreso hasta la publicación científica. En primer lugar, el archivo PDF del congreso se convierte en una tabla estructurada de presentaciones. A continuación, se organizan los títulos, los nombres de los autores, las instituciones y los detalles de las presentaciones.
En la siguiente etapa, el software recopila publicaciones candidatas de OpenAlex, PubMed y CrossRef. Estas publicaciones se unifican utilizando criterios como el DOI, PMID y la similitud del título, y se eliminan los registros duplicados. En la etapa final, se ejecuta un proceso de coincidencia multietapa entre los resúmenes del congreso y las publicaciones.
Este proceso no se centra únicamente en la similitud de títulos. Evalúa el solapamiento de autores, el año de publicación, identificadores robustos como DOI y PMID, y la ventana temporal, todo junto. De esta manera, cada coincidencia se clasifica dentro de una cadena de evidencia.
Valor científico y aplicaciones futuras
Sci-Stalker ofrece un marco reutilizable que puede aplicarse para medir el rendimiento de publicación de los resúmenes de congresos en distintas especialidades médicas. El proyecto TOTDER constituye la primera aplicación integral de este sistema; el mismo método puede adaptarse también a otras asociaciones, especialidades y series de congresos.
Con este software, las instituciones académicas, las asociaciones especializadas y los investigadores pueden comenzar a buscar respuestas más sistemáticas a preguntas como:
- ¿Cuántos de los resúmenes presentados en un congreso determinado se convierten en artículos de revista?
- ¿En qué años aumenta o disminuye la tasa de conversión de publicaciones?
- ¿Qué tipos de estudios se convierten con más frecuencia en publicaciones?
- ¿Qué grupos de autores o instituciones muestran un mayor volumen de publicaciones sostenido?
- ¿En qué medida contribuyen las presentaciones del congreso a la literatura científica?
Estas preguntas no solo importan por curiosidad académica, sino también para evaluar la calidad, sostenibilidad y visibilidad de la producción científica.
Validación y Preparación para Publicación Académica
Las salidas de Sci-Stalker están diseñadas para ser verificables por revisores humanos independientes. Métricas como precisión, exhaustividad (recall) y F1 pueden calcularse para las capas de emparejamiento. También puede emplearse el kappa de Cohen para medir el grado de acuerdo entre evaluadores.
Para el proyecto TOTDER, se planea un conjunto de evaluación de estándar dorado etiquetado manualmente de 150 a 300 presentaciones. Este conjunto se utilizará para medir la precisión del software y demostrar su confiabilidad metodológica antes de su publicación académica.
Equipo y Contribuciones
Sci-Stalker fue desarrollado bajo la dirección del Dr. Emre Geçer, quien supervisó la arquitectura del software, el diseño del pipeline y la gestión del proyecto. Ecrin Alihoca contribuyó a los motores de obtención de datos de OpenAlex, PubMed y CrossRef, así como a los componentes de fusión, emparejamiento y traducción. Gökalp Çetin trabajó en los módulos de canonización, mapeo y normalización de autores.
Esta estructura de equipo es lo que permitió que Sci-Stalker dejara de ser solo una idea y se convirtiera en una infraestructura de investigación operativa, que abarca la extracción de datos, la limpieza de datos, el rastreo de fuentes científicas, el emparejamiento y la validación.
Conclusión
Sci-Stalker es un software de investigación de nueva generación que sigue el rastro, en la literatura científica, de los estudios presentados en congresos médicos. No considera los resúmenes de congresos como meros textos archivados, sino que hace trazable su recorrido científico a lo largo de los años.
Al hacerlo, Sci-Stalker revela la cara oculta de la producción académica. Permite evaluar, con base en evidencias, qué estudios se han transformado en artículos de revista, cuáles han dejado huella en la literatura y cuáles han quedado únicamente en las actas del congreso. Para investigadores, asociaciones de especialidad e instituciones académicas que deseen analizar el rendimiento de publicación de las presentaciones de congresos en medicina, ofrece un sólido punto de partida.
Dr. Emre Gecer
Autor
İlgilendiğim bazı şeyler var. Sinema kuramı, senaryo mekaniği, sanat akımları, jazz müzik, finans teorisi, python, yapay zeka, makine öğrenmesi ve tıpın ilgimi çeken konuları gibi. Bunlar hakkında not düşebileceğim, düşüncelerimi paylaşabileceğim bir alan yaratmak istedim. Birazda hayatın içinden anlar, hikayeler eklerim diye düşünüyorum. Buranın zamanla gelişeceğine inanıyorum, belki de uzun vadede bambaşka bir şeye dönüşür. Neden olmasın?
Artículos relacionados
Ciencias de la Computación y Criptografía: Fundamentos de la Seguridad Digital
La criptografía, base de la seguridad digital, ha evolucionado significativamente a lo largo del tiempo. Una revisión exhaustiva de la criptografía en la ciencia informática abarca desde el cifrado César hasta la criptografía cuántica, desde los algoritmos de cifrado simétrico y asimétrico hasta el protocolo TLS, y desde las funciones hash hasta la criptografía post-cuántica. **Orígenes: Cifrado César** En sus inicios, la criptografía se centraba en el cifrado de mensajes para garantizar su confidencialidad. Uno de los métodos más antiguos es el cifrado César, que consiste en desplazar cada letra del mensaje un número fijo de posiciones en el alfabeto. Este método, aunque simple, fue un primer paso crucial en el desarrollo de técnicas criptográficas. **Cifrado Simétrico vs. Asimétrico** Con el avance de la informática, surgieron dos enfoques principales en la criptografía: el cifrado simétrico y el asimétrico. El cifrado simétrico, como el algoritmo AES (Advanced Encryption Standard), utiliza una sola clave tanto para cifrar como para descifrar la información. Por otro lado, el cifrado asimétrico, introducido por Rivest, Shamir y Adleman (RSA), emplea un par de claves: una pública para cifrar y otra privada para descifrar. **Funciones Hash** Las funciones hash, como SHA-256 y MD5, también juegan un papel vital en la criptografía. Estas funciones transforman datos de cualquier tamaño en un valor hash fijo, asegurando la integridad de los datos y la autenticación. **Protocolo TLS (Transport Layer Security)** El protocolo TLS, sucesor del SSL, es fundamental para la seguridad en la transmisión de datos en Internet. Garantiza la privacidad y la integridad de los datos durante la comunicación entre aplicaciones, como navegadores web y servidores. **Criptografía Cuántica** Recientemente, la criptografía cuántica ha emergido como una nueva frontera. Utiliza principios de la mecánica cuántica para asegurar comunicaciones completamente inviolables. La distribución cuántica de claves (QKD) es un ejemplo de esta tecnología innovadora. **Post-Quantum Criptografía** Ante la amenaza de las computadoras cuánticas, que podrían romper muchos de los sistemas criptográficos actuales, se está investigando activamente en la criptografía post-cuántica. Esta busca desarrollar algoritmos resistentes a los ataques cuánticos, asegurando así la seguridad futura
KodlamaCiberseguridad: Una guía completa
Una guía completa sobre ciberseguridad, desde los fundamentos hasta temas avanzados. La tríada CIA, el ransomware, los APT, las vulnerabilidades de día cero, el Top 10 de OWASP, la seguridad en la nube, el IoT, las operaciones de SOC, las pruebas de penetración, los programas de recompensas por errores, el marco MITRE ATT&CK y la estructura USOM/BTK en Turquía.
KodlamaEl filo cortante y el rostro arriesgado de la economía digital: criptomonedas, fintech y más allá.
Desde las criptomonedas hasta la DeFi, desde la burbuja de los NFT hasta la lira turca digital, desde la revolución fintech hasta las estafas criptográficas: explore las oportunidades y riesgos de la economía digital. Comprenda el panorama regulatorio de Turquía a través del marco de la SPK, BDDK y MASAK.