vai al contenuto della pagina vai al menu di navigazione
 

Statistical modelling of CG interdistance across multiple organisms

Authors analyzed CG dinucleotide distribution inside 4425 DNA gene sequences, identifying a statistical model that allows to highlight relevant features related to organism complexity.
Increasing value of Gamma scale parameter as a function of biological complexity: bacteria (BT), protozoa (PZ), fungi (FG), invertebrates (IN)...

https://doi.org/10.1186/s12859-018-2303-2

Links: http://bioinformatics.it/bits2017

DIFA Authors/Autori DIFA: Dott.ssa A. Merlotti (DIFA), Prof. G. Castellani (DIFA), Prof. D. Remondini (DIFA)

Statistical approaches to the analysis of genomic sequences as symbolic sequences allowed to deepen the understanding of existing relationship between DNA structure and its biological functions. In particular, recent studies on the positioning of dinucleotides along the genome highlighted the peculiar role that CG dinucleotides play in more complex organisms, such as mammals.

In light of these observations, we chose to study CG interdistance distribution in 9 genomic sequences, belonging to higher-order model organisms, and to characterize their trend through best-fit techniques and statistical measures. Subsequently we extended the study to a wide range of organisms (4425, practically spanning the whole set of available sequenced genomes, from bacteria to mammals) in order to highlight possible differences.

Results show that one particular distribution (the Gamma distribution) is optimal to describe these distances. In particular, the parameters of this distribution, highlight biologically relevant features related organismal complexity, that can be useful for classification purposes.

Modello statistico delle distanze fra dinucleotidi CG

Gli autori hanno analizzato la distribuzione delle distanze fra dinucleotidi “CG” nel DNA di 4425 organismi (dai batteri ai mammiferi), identificando caratteristiche rilevanti in relazione alla complessitá biologica delle categorie di organismi considerate.

L’approccio statistico all’analisi delle sequenze genomiche, intese come sequenze simboliche, ha permesso di approfondire lo studio della relazione esistente tra struttura del DNA e le sue funzioni biologiche. In particolare, recenti studi sul posizionamento dei dinucleotidi lungo il genoma, hanno evidenziato il peculiare ruolo che i dinucleotidi di tipo “CG” svolgono negli organismi più complessi, come i mammiferi.

Alla luce di queste osservazioni, abbiamo scelto di studiare la distribuzione delle distanze fra CG in 9 genomi di organismi modello, attraverso tecniche di best fit e misure statistiche. Successivamente abbiamo esteso lo studio ad una vasta gamma di organismi (4425, praticamente l’intero insieme di organismi sequenziati disponibili, dai batteri ai mammiferi) al fine di evidenziarne eventuali differenze.

I risultati mostrano che la distribuzione Gamma risulta essere ottimale tra un insieme di distribuzioni, scelte per il loro significato fisico o perché recentemente utilizzate in letteratura. In particolare, i parametri di questa distribuzione, consentono di evidenziare caratteristiche rilevanti in relazione alle complessitá biologica delle categorie di esseri viventi considerate, le quali possono essere utili anche per fini di classificazione.