Sci-Stalker: Software di intelligenza artificiale per il monitoraggio della conversione degli abstract dei congressi in pubblicazioni scientifiche
Sviluppato sotto la guida del Dott. Emre Gecer, Sci-Stalker è un software di ricerca automatizzato che utilizza i dati di OpenAlex, PubMed e CrossRef per monitorare se gli abstract presentati ai congressi medici vengono convertiti in pubblicazioni scientifiche peer-reviewed.
Sviluppato sotto la guida del Dr. Emre Geçer, Sci-Stalker è un software di ricerca automatizzato progettato per monitorare se gli abstract presentati ai congressi medici si trasformino, nel corso degli anni, in pubblicazioni scientifiche sottoposte a revisione tra pari.
Centinaia di studi vengono presentati ad ogni congresso medico. Questi abstract spesso contengono le ultime tracce della pratica clinica, della produzione accademica e della curiosità scientifica. Tuttavia, è raramente noto, in modo sistematico, quanti di questi studi siano stati successivamente trasformati in articoli di rivista, che hanno trovato un posto nella letteratura scientifica, e quali sono rimasti negli atti del convegno e sono andati perduti.
Sci-Stalker si concentra proprio su questa domanda: uno studio scientifico presentato a un congresso si trasforma, col tempo, in una pubblicazione sottoposta a revisione tra pari? Il software offre un'infrastruttura che segue il percorso invisibile tra gli abstract congressuali e le pubblicazioni scientifiche, rende misurabile il destino della produzione accademica e aggiunge un nuovo livello di monitoraggio all'ecosistema della ricerca.
Che cosa fa Sci-Stalker?
Sci-Stalker prende come punto di partenza un volume degli atti di un congresso. Da questo documento PDF estrae le presentazioni, individua gli autori, struttura i titoli e i testi e quindi ricerca questi dati nelle banche dati scientifiche internazionali.
Utilizzando fonti come OpenAlex, PubMed e CrossRef, il software stabilisce corrispondenze basate su prove tra gli abstract dei congressi e gli articoli successivamente pubblicati. Per ogni abstract, lo stato di pubblicazione viene valutato su quattro livelli di evidenza:
- ESATTO — corrispondenza diretta e precisa.
- PROBABILE — corrispondenza con elevata probabilità.
- POSSIBILE — un possibile abbinamento che richiede una revisione attenta.
- Nessuna evidenza — un abstract per il quale non è stata trovata alcuna evidenza di conversione in pubblicazione.
Questa struttura consente di leggere la produzione accademica non solo in termini numerici ma anche in base ai livelli di evidenza.
Perché è importante?
I congressi medici sono spesso il primo luogo in cui i risultati scientifici diventano visibili. Uno studio viene solitamente presentato per la prima volta come una relazione orale o un poster; viene poi ampliato, sottoposto a una rivista peer-reviewed e entra nella letteratura scientifica. Tuttavia, questo processo non sempre si completa.
Alcuni abstract diventano articoli di rilievo. Alcuni vengono pubblicati anni dopo. Alcuni appaiono con titoli completamente diversi. E alcuni rimangono negli atti dei convegni e non entrano mai nella circolazione scientifica.
Sci-Stalker porta alla luce questo territorio incerto. Aiuta ad analizzare in modo sistematico quali abstract sono stati trasformati in pubblicazioni, in quali ambiti i tassi di conversione sono elevati, in quali anni la produzione è stata più consistente e quali studi non hanno lasciato traccia in letteratura. Per questo motivo Sci-Stalker non è semplicemente un progetto software tecnico; è uno strumento importante per la trasparenza accademica, la tracciabilità scientifica e la valutazione della qualità della ricerca.
Prima Applicazione: TOTDER 2011–2024
La prima applicazione su larga scala di Sci-Stalker è stata realizzata sugli abstract congressuali dell'Associazione Turca di Ortopedia e Traumatologia (TOTDER). Sono stati analizzati quattordici anni di dati congressuali, dal 2011 al 2024.
In questo studio iniziale sono stati valutati 898 presentazioni al congresso e 1.375 autori unici. Dopo la pulizia dei record duplicati, il bacino di pubblicazioni ricavato da PubMed e CrossRef ha raggiunto uno spazio di ricerca di 100.276 pubblicazioni scientifiche. I primi risultati offrono un quadro impressionante di quanto spesso gli abstract dei congressi vengono convertiti in pubblicazioni scientifiche.
TOTDER 2011–2024: Primi risultati
- Anni del Congresso analizzati: 2011–2024
- Presentazioni totali: 898
- Autori unici: 1.375
- Piscina di pubblicazione: 100.276
- Corrispondenza esatta di pubblicazione confermata (ESATTA): 182 (20,3%)
- Corrispondenza di pubblicazione ad alta probabilità (PROBABILE): 30 (3,3%)
- Possibile corrispondenza di pubblicazione (POSSIBLE): 10 (1.1%)
- Abstracti senza prove di pubblicazione (NO_EVIDENCE): 670 (74,6%)
Questi risultati si basano sui dati di PubMed e CrossRef. Con l'integrazione in corso con OpenAlex, si prevede che le cifre finali aumenteranno.
Come funziona il software
La logica di Sci-Stalker segue passo dopo passo la catena che dagli atti congressuali porta alla pubblicazione scientifica. In primo luogo, il file PDF del congresso viene trasformato in una tabella strutturata di presentazioni. Successivamente vengono organizzati titoli, nomi degli autori, istituzioni e dettagli delle presentazioni.
Nella fase successiva, il software raccoglie le pubblicazioni candidate da OpenAlex, PubMed e CrossRef. Queste pubblicazioni vengono quindi unificate utilizzando criteri come DOI, PMID e similarità del titolo, e i record duplicati vengono eliminati. Nella fase finale, un processo di abbinamento multi-passo viene eseguito tra gli abstract dei congressi e le pubblicazioni.
Questo processo non si basa esclusivamente sulla somiglianza dei titoli. Valuta il sovrapposizione degli autori, l'anno di pubblicazione, identificatori robusti come DOI e PMID, e la finestra temporale — tutto insieme. In questo modo, ogni corrispondenza viene classificata all'interno di una catena di evidenze.
Valore scientifico e applicazioni future
Sci-Stalker offre un framework riutilizzabile, applicabile per misurare le performance di pubblicazione degli abstract congressuali in diverse specialità mediche. Il progetto TOTDER costituisce la prima applicazione su larga scala di questo sistema; lo stesso metodo può essere adattato anche ad altre associazioni, specialità e serie di congressi.
Con questo software, le istituzioni accademiche, le associazioni di specializzazione e i ricercatori possono iniziare a cercare risposte più sistematiche a domande come:
- Quanti degli abstract presentati a un dato congresso vengono convertiti in articoli di rivista?
- In quali anni aumenta o diminuisce il tasso di conversione delle pubblicazioni?
- Quali tipi di studi vengono più spesso convertiti in pubblicazioni?
- Quali gruppi di autori o istituzioni mostrano una produzione editoriale più sostenuta?
- Quanto contribuiscono le presentazioni al Congresso alla letteratura scientifica?
Queste domande sono importanti non solo per curiosità accademica, ma anche per valutare la qualità, la sostenibilità e la visibilità della produzione scientifica.
Convalida e Preparazione per la Pubblicazione Accademica
Gli output di Sci-Stalker sono progettati per essere verificabili da revisori umani indipendenti. Per i livelli di matching possono essere calcolate metriche come precision, recall e F1. Si può inoltre utilizzare il coefficiente kappa di Cohen per misurare l'accordo tra valutatori.
Per il progetto TOTDER, è prevista la creazione di un insieme di valutazione di standard oro manualmente etichettato, composto da 150-300 presentazioni. Questo insieme verrà utilizzato per misurare l'accuratezza del software e dimostrare la sua affidabilità metodologica prima della pubblicazione accademica.
Team e Contributi
Sci-Stalker è stato sviluppato sotto la guida del Dr. Emre Geçer, che ha supervisionato l'architettura del software, la progettazione della pipeline e la gestione del progetto. Ecrin Alihoca ha contribuito ai motori di fetch per OpenAlex, PubMed e CrossRef, nonché ai componenti di merge, match e traduzione. Gökalp Çetin ha lavorato ai moduli di canonicalizzazione, mappatura e normalizzazione degli autori.
È stata questa struttura del team a permettere a Sci-Stalker di diventare qualcosa di più di un'idea, trasformandosi in un'infrastruttura di ricerca operativa che copre l'estrazione dei dati, la pulizia dei dati, il crawling delle fonti scientifiche, il matching e la validazione.
Conclusione
Sci-Stalker è un software di ricerca di nuova generazione che segue la traccia, nella letteratura scientifica, degli studi presentati ai congressi medici. Non considera gli abstract congressuali come semplici testi archiviati; rende tracciabile il loro percorso scientifico negli anni.
Così facendo, Sci-Stalker svela il lato invisibile della produzione accademica. Permette di valutare, su basi evidence-based, quali studi sono stati trasformati in articoli su rivista, quali hanno lasciato un segno in letteratura e quali sono rimasti soltanto negli atti congressuali. Per ricercatori, società scientifiche e istituzioni accademiche che vogliono analizzare le performance di pubblicazione delle presentazioni congressuali in medicina, offre un solido punto di partenza.
Dr. Emre Gecer
Author
İlgilendiğim bazı şeyler var. Sinema kuramı, senaryo mekaniği, sanat akımları, jazz müzik, finans teorisi, python, yapay zeka, makine öğrenmesi ve tıpın ilgimi çeken konuları gibi. Bunlar hakkında not düşebileceğim, düşüncelerimi paylaşabileceğim bir alan yaratmak istedim. Birazda hayatın içinden anlar, hikayeler eklerim diye düşünüyorum. Buranın zamanla gelişeceğine inanıyorum, belki de uzun vadede bambaşka bir şeye dönüşür. Neden olmasın?
Related Articles
Informatica e Crittografia: Fondamenti della Sicurezza Digitale
La crittografia, fondamento della sicurezza digitale, ha subito un'evoluzione straordinaria nel corso del tempo. Una panoramica completa della crittografia nell'informatica include vari aspetti: - **Cifratura di Cesare**: Uno dei primi metodi di cifratura, risalente all'antica Roma, in cui ogni lettera dell'alfabeto viene spostata di un numero fisso di posizioni. - **Algoritmi di cifratura simmetrica e asimmetrica**: Gli algoritmi simmetrici, come AES, utilizzano la stessa chiave per cifrare e decifrare i dati. Al contrario, gli algoritmi asimmetrici, o a chiave pubblica, come RSA, usano due chiavi diverse per le due operazioni, aumentando la flessibilità e la sicurezza. - **Protocollo TLS (Transport Layer Security)**: Successore del protocollo SSL, garantisce la sicurezza delle comunicazioni su Internet, proteggendo la privacy e l'integrità dei dati durante la trasmissione. - **Funzioni hash**: Strumenti crittografici che trasformano dati di lunghezza variabile in stringhe fisse, utilizzate per verificare l'integrità dei dati e per l'autenticazione. - **Crittografia quantistica**: Un campo emergente che sfrutta i principi della meccanica quantistica per sviluppare sistemi di crittografia estremamente sicuri, resistenti anche agli attacchi dei futuri computer quantistici. - **Crittografia post-quantistica**: Si concentra sullo sviluppo di algoritmi di cifratura resistenti agli attacchi dei computer quantistici, garantendo la sicurezza dei dati anche in un'era di calcolo quantistico. Questa evoluzione riflette il costante adattamento della crittografia alle sfide tecnologiche, assicurando la protezione dei dati in un mondo sempre più digitale.
KodlamaSicurezza informatica: una guida completa
# Guida completa alla sicurezza informatica: dai fondamenti agli argomenti avanzati ## I fondamenti della sicurezza informatica La sicurezza informatica è un campo cruciale che si concentra sulla protezione dei sistemi, delle reti e dei dati da accessi non autorizzati, attacchi e danni. Ecco alcuni concetti fondamentali: - **Confidenzialità, Integrità, Disponibilità (CIA Triad):** Questo modello di sicurezza si basa su tre principi fondamentali: proteggere le informazioni sensibili (confidenzialità), garantire l'accuratezza e la completezza dei dati (integrità) e assicurare l'accesso ai sistemi e alle risorse quando necessario (disponibilità). - **Ransomware:** Un tipo di malware che crittografa i file o blocca l'accesso al sistema, richiedendo il pagamento di un riscatto per ripristinare l'accesso. - **Advanced Persistent Threats (APTs):** Attacchi mirati e prolungati condotti da attori sofisticati con l'obiettivo di infiltrarsi in una rete e mantenere l'accesso per un lungo periodo. ## Vulnerabilità e minacce - **Zero-day vulnerabilities:** Si tratta di vulnerabilità software sconosciute al pubblico o al fornitore, che possono essere sfruttate dagli attaccanti prima che venga rilasciata una patch. - **OWASP Top 10:** Una lista delle dieci vulnerabilità web più critiche e comuni, pubblicata dalla Open Web Application Security Project, che include problemi come l'iniezione SQL, la gestione errata dell'autenticazione e la configurazione errata della sicurezza. ## Sicurezza nella pratica - **Cloud Security:** La protezione dei dati e delle applicazioni ospitate su piattaforme cloud, che include la gestione delle identità, la crittografia e la monitoraggio continuo. - **Internet of Things (IoT):** La sicurezza dei dispositivi connessi a Internet, che richiede misure specifiche a causa della loro natura spesso non sicura e interconnessa. - **Security Operations Center (SOC):** Un team dedicato alla sorveglianza, rilevamento e risposta agli incidenti di sicurezza 24 ore su 24, 7 giorni su 7. - **Penetration Testing:** Tecnica di valutazione della sicurezza che simula attacchi reali per identificare vulnerabilità e punti deboli in un sistema o rete. - **
KodlamaIl lato tagliente e rischioso dell'economia digitale: crittografia, fintech e oltre
Dalle criptovalute al DeFi, dalla bolla degli NFT alla lira turca digitale, dalla rivoluzione fintech alle truffe cripto — esplora le opportunità e i rischi dell'economia digitale. Comprendi il panorama normativo della Turchia attraverso il quadro normativo di SPK, BDDK e MASAK.