SIMAP: Unterschied zwischen den Versionen

Aus Planet 3DNow! Distributed Computing Wiki
Zur Navigation springen Zur Suche springen
(→‎Projektbeschreibung: Aktualiesiert (Copy&Paste))
Zeile 49: Zeile 49:
 
Wem nutzt SIMAP?
 
Wem nutzt SIMAP?
 
<blockquote style="font-style: italic">
 
<blockquote style="font-style: italic">
Proteinähnlichkeiten geben Hinweise auf die Verwandschaftsverhältnisse zwischen Proteinen. Verwandte Proteine haben oft gleiche oder ähnliche Eigenschaften und Funktionen im Organismus, da sie sich im Lauf der Evolution nur langsam verändern. Da man derzeit viel mehr Proteinsequenzen kennt als man eingehend in Labors untersuchen kann, werden die experimentellen Erkenntnisse über ein Protein auch auf dessen Verwandte übertragen. Ein gutes Beispiel dafür ist die intensive Untersuchung von Mausgenen und -proteinen, deren Ergebnisse oft auch für den Menschen gültig sind.</blockquote>
+
Proteinähnlichkeiten geben Hinweise auf die Verwandschaftsverhältnisse zwischen Proteinen. Verwandte Proteine haben oft gleiche oder ähnliche Eigenschaften und Funktionen im Organismus, da sie sich im Lauf der Evolution nur langsam verändern. Da man derzeit viel mehr Proteinsequenzen kennt als man eingehend in Labors untersuchen kann, werden die experimentellen Erkenntnisse über ein Protein auch auf dessen Verwandte übertragen. Ein gutes Beispiel dafür ist die intensive Untersuchung von Mausgenen und -proteinen, deren Ergebnisse oft auch für den Menschen gültig sind.
 +
Proteindomänen sind die strukturellen Bausteine der Proteine und verantwortlich für die Aktivitäten eines bestimmten Domains. So ermöglichen sie z.B. die Bindung kleiner Moleküle, katalytische Reaktionen oder die Zusammenlagerung von Proteinen zu groß:en Komplexen. Das Wissen über Proteindomänen ist in großen Repositorien gespeichert, vor allem in den InterPro-Datenbanken. Die Vorhersage von Proteindomänen in neu sequenzierten Proteinen beruht auf diesen Datenbanken und ermöglicht eine automatische funktionelle Annotation dieser Proteine. Daher berechnen wir die Proteindomänen mit Hilfe der InterPro-Datenbanken für alle Proteine in SIMAP. Somit stellen wir das weltweit umfangreichste System für die Funktionsvorhersage von Proteinen bereit.
 +
Darüber hinaus gibt es noch viele weitere Methoden in der Bioinformatik, die auf Proteinähnlichkeiten basieren. Unsere Proteinähnlichkeitsdatenbank stellt all diesen Methoden die vorberechneten Ähnlichkeiten aller bekannten Proteine zur Verfügung. Dadurch eröffnen sich neuartige Möglichkeiten, denn bislang würden die Ähnlichkeiten immer und immer wieder neu berechnet. SIMAP wird regelmäßig aktualisiert und muss nur neu hinzukommende Sequenzen in die Matrix integrieren (sogenannte inkrementelle updates). SIMAP ist für Forschung und Lehre vollständig kostenlos verfügbar.</blockquote>
 +
BoincSIMAP:
 +
<blockquote style="font-style: italic">Da der Berechnungsaufwand für eine solche Matrix quadratisch mit der Größe der Matrix steigt, sind unsere internen Resourcen (gridengine-cluster unter Linux) schon lange nicht mehr ausreichend. Daher haben wir eine boinc-Applikation implementiert, die auf den Quellen von FASTA aufbaut, eines heuristischen Programms zur Sequenzähnlichkeitssuche.
 +
Der Berechnungsaufwand für die Proteindomänen ist von vergleichbarer Komplexität, denn er ist sowohl von der Anzahl der Proteinsequenzen in SIMAP als auch von der Anzahl der Domänenmodelle in den InterPro-Datenbanken abhängig. Da sowohl die Anzahl der Proteine ständig wächst als auch die Domänenmodelle immer wieder erweitert und aktualisiert werden, ist der Rechenaufwand für uns nur mit Hilfe eines BOINC-Projektes zu bewältigen.
 +
Die boincsimap-Applikationen sind derzeit Minimal-Programme ohne Screensaver-Grafik etc., da wir erstmal Wert auf die reine Funktionalität gelegt haben.</blockquote>
 +
 
 
Wer betreibt SIMAP?
 
Wer betreibt SIMAP?
 
<blockquote style="font-style: italic">
 
<blockquote style="font-style: italic">
 
SIMAP ist ein Gemeinschaftsprojekt des GSF-Forschungszentrums für Gesundheit und Umwelt in Neuherberg bei München und der Technischen Universität München, Wissenschaftszentrum Weihenstephan. Ansprechpartner ist Thomas Rattei vom Lehrstuhl für Genomorientierte Bioinformatik.
 
SIMAP ist ein Gemeinschaftsprojekt des GSF-Forschungszentrums für Gesundheit und Umwelt in Neuherberg bei München und der Technischen Universität München, Wissenschaftszentrum Weihenstephan. Ansprechpartner ist Thomas Rattei vom Lehrstuhl für Genomorientierte Bioinformatik.
 
</blockquote>
 
</blockquote>
''Copyright © 2007 Genome Oriented Bioinformatics - TU Munich''
+
''[http://boinc.bio.wzw.tum.de/boincsimap/project.php Copyright © 2007 Genome Oriented Bioinformatics - TU Munich]''  
  
 
=== Erfolge des Projekts ===
 
=== Erfolge des Projekts ===

Version vom 30. Januar 2008, 14:51 Uhr

Steckbrief
Kategorie: Biologie & Medizin
Betreiber: TU München (Fachrichtung Bioinformatik)
Nationalität: Deutschland Flag de.png
Start: Dezember 2005
Status: Stabil
Webseite: boinc.bio.wzw.tum.de
Anmelde-URL: http://boinc.bio.wzw.tum.de/boincsimap/
Clients Logo Windows.gif Logo Linux.gif Logo MacOSX.gif Logo android.png Logo raspberry.png
x86 x x x x x
x86-64 x x x - -
PowerPC/PS3 - x x - -
IA64 - x - - -
Alpha - x - - -
Sparc - x - - x
UltraSparc - x - - x
PA-RISC 32Bit - x - - -
PA-RISC 64Bit - x - - -
Planet 3DNow! Teamstatistik

SIMAP ist ein Projekt der TU München, welches der Erstellung einer Datenbank dient, in der die Ähnlichkeiten zwischen Proteinsequenzen gespeichert werden.

Projektbeschreibung

So beschreibt sich das Projekt selbst:

Was ist SIMAP:

SIMAP ist eine Datenbank, in der die Ähnlichkeiten aller derzeit bekannten Proteinsequenzen untereinander sowie deren Domänen gespeichert sind. Man kann sich das als Matrix vorstellen, die quadratisch ist bei einer Kantenlänge von ca. 4 Mio Proteinsequenzen die wir momentan speichern. Der Inhalt der Matrix ist symmetrisch, das heißt wenn Protein 1 dem Protein 2 ähnlich ist, dann ist es umgekehrt genauso. SIMAP ist weltweit das einzige derartige Projekt, bei dem wirklich alle Proteine einbezogen werden. Das "Konkurrenzprojekt" clustr am European Bioinformatics Institute beschränkt sich derzeit auf ca. 1/5 unserer Datenmenge.

Wem nutzt SIMAP?

Proteinähnlichkeiten geben Hinweise auf die Verwandschaftsverhältnisse zwischen Proteinen. Verwandte Proteine haben oft gleiche oder ähnliche Eigenschaften und Funktionen im Organismus, da sie sich im Lauf der Evolution nur langsam verändern. Da man derzeit viel mehr Proteinsequenzen kennt als man eingehend in Labors untersuchen kann, werden die experimentellen Erkenntnisse über ein Protein auch auf dessen Verwandte übertragen. Ein gutes Beispiel dafür ist die intensive Untersuchung von Mausgenen und -proteinen, deren Ergebnisse oft auch für den Menschen gültig sind. Proteindomänen sind die strukturellen Bausteine der Proteine und verantwortlich für die Aktivitäten eines bestimmten Domains. So ermöglichen sie z.B. die Bindung kleiner Moleküle, katalytische Reaktionen oder die Zusammenlagerung von Proteinen zu groß:en Komplexen. Das Wissen über Proteindomänen ist in großen Repositorien gespeichert, vor allem in den InterPro-Datenbanken. Die Vorhersage von Proteindomänen in neu sequenzierten Proteinen beruht auf diesen Datenbanken und ermöglicht eine automatische funktionelle Annotation dieser Proteine. Daher berechnen wir die Proteindomänen mit Hilfe der InterPro-Datenbanken für alle Proteine in SIMAP. Somit stellen wir das weltweit umfangreichste System für die Funktionsvorhersage von Proteinen bereit.

Darüber hinaus gibt es noch viele weitere Methoden in der Bioinformatik, die auf Proteinähnlichkeiten basieren. Unsere Proteinähnlichkeitsdatenbank stellt all diesen Methoden die vorberechneten Ähnlichkeiten aller bekannten Proteine zur Verfügung. Dadurch eröffnen sich neuartige Möglichkeiten, denn bislang würden die Ähnlichkeiten immer und immer wieder neu berechnet. SIMAP wird regelmäßig aktualisiert und muss nur neu hinzukommende Sequenzen in die Matrix integrieren (sogenannte inkrementelle updates). SIMAP ist für Forschung und Lehre vollständig kostenlos verfügbar.

BoincSIMAP:

Da der Berechnungsaufwand für eine solche Matrix quadratisch mit der Größe der Matrix steigt, sind unsere internen Resourcen (gridengine-cluster unter Linux) schon lange nicht mehr ausreichend. Daher haben wir eine boinc-Applikation implementiert, die auf den Quellen von FASTA aufbaut, eines heuristischen Programms zur Sequenzähnlichkeitssuche.

Der Berechnungsaufwand für die Proteindomänen ist von vergleichbarer Komplexität, denn er ist sowohl von der Anzahl der Proteinsequenzen in SIMAP als auch von der Anzahl der Domänenmodelle in den InterPro-Datenbanken abhängig. Da sowohl die Anzahl der Proteine ständig wächst als auch die Domänenmodelle immer wieder erweitert und aktualisiert werden, ist der Rechenaufwand für uns nur mit Hilfe eines BOINC-Projektes zu bewältigen.

Die boincsimap-Applikationen sind derzeit Minimal-Programme ohne Screensaver-Grafik etc., da wir erstmal Wert auf die reine Funktionalität gelegt haben.

Wer betreibt SIMAP?

SIMAP ist ein Gemeinschaftsprojekt des GSF-Forschungszentrums für Gesundheit und Umwelt in Neuherberg bei München und der Technischen Universität München, Wissenschaftszentrum Weihenstephan. Ansprechpartner ist Thomas Rattei vom Lehrstuhl für Genomorientierte Bioinformatik.

Copyright © 2007 Genome Oriented Bioinformatics - TU Munich

Erfolge des Projekts

Dank des grossen Interesses der internationalen Cruncher-Gemeinschaft konnten die Datenbestände des Projekts bereits abgearbeitet werden. Inzwischen werden meist nur noch zu Beginn jeden Monats neue Proteinsequenzen zur Berechnung verteilt werden.


Current Release Statistics

Release Date: 2007-10-17 14:42:28.0

Number of Databases: 549

Number of Proteins: 17,558,967

Number of Sequences: 6,275,189

Number of Residues: 2,092,498,491

Number of processed Sequences: 6,189,008

Number of Hits: 90,748,726,442

Quelle: GSF - Forschungszentrum für Umwelt und Gesundheit

Planet 3DNow!

Planet 3DNow! nimmt seit dem 13.06.2006 mit einem eigenen Team an SIMAP teil und erreichte am 11.09.2006 Platz 1.

Im Oktober 2007 konnte Planet3Dnow! als erstes Team die "Schallmauer" von 10 Millionen Credits überschreiten!

Teilnahme

Um bei boincSIMAP teilzunehmen muss man BOINC installieren. Mehr zur Installation von BOINC gibt es hier in der DC-Wiki.

BoincSIMAP ist auf nahezu allen Computern lauffähig, profitiert allerdings - im Gegensatz zu vielen anderen Projekten - von erweiterten CPU Befehlssätzen wie SSE.

Clients sind für Windows, Linux, Macintosh und etliche Unix-Derivate wie etwa Solaris und BSD verfügbar.

Die Datenmenge beim Up/Download beträgt einmalig ca. ? MB sowie ~1,85-2 MB pro Work-Unit.

Besonderheiten

  • Das Projekt unterstützt Checkpoints.
  • SIMAP vergibt fixen Credits mit ~1,5-2fachen des claimed Credit.
  • Für Linux gibt es einen 64bit-Client, welcher ca. 10-15% schneller ist als der Standart Windows-Client.
  • Es gibt zwei verschieden Anwendungen: SIMAP zum Proteinsequenzenvergleich & HMMER "Hidden Markov Models" (HMMs) für dderen Domänen
  • Das Quorum beträgt 2. Eine Work-Unit muss also von zwei Rechnern erfolgreich berechnet werden bevor diese Rechner Credits gutgeschrieben bekommen.
  • Die Deadline bei diesen Projekt beträgt 7 Tage, später abgegebene Work-Units werden nicht mehr akzeptiert. Die Berechnung muss innerhalb dieser Zeitraums abgeschlossen und das Ergebnis dem Projekt vollständig gemeldet werden.
  • SIMAP profitiert wenig von einer hohen Speicherbandbreite und einem großen CPU-Cache nutzt aber Befehlssatzerweiterungen (SSE, SSE2, SSE3, MMX, 3DNow! etc.).
  • SIMAP ist ein periodisches Projekt, es gibt hauptsächlich am Monatsanfang WUs, deren Menge je nach Umfang des Gendatenupdates schwankt.

Banner SIMAP.png

Weblinks


BOINC-Projekte

- Astronomie & Astrophysik -

Cosmology@Home | Einstein@Home | MilkyWay@home | orbit@home | SETI@home

- Biologie & Medizin -

BCL@Home | Cels@Home | Docking@Home | DrugDiscovery@Home | Malariacontrol.net | POEM@HOME | Predictor@home* | Proteins@Home | RNA World | Rosetta@home | SIMAP | Superlink@Technion | TANPAKU* | Virtual Prairie

- Chemie -

GPUGRID | Hydrogen@Home | QMC@Home

- Geologie -

Quake-Catcher Network

- Internet -

Anansi | DepSpid*

- Kryptographie -

DistrRTgen | DNETC@HOME | Enigma@Home | SHA-1 Collision Search Graz

- Künstliche Intelligenz -

Artificial Intelligence System* | distributedDataMining | FreeHAL@home | MindModeling@Home

- Mathematik -

3x+1@home* | ABC@home | Collatz Conjecture | Goldbach's Conjecture Project | Genetic Life | NFS@Home | PrimeGrid | Ramsey@Home | Rectilinear Crossing Number | Riesel Sieve* | SZTAKI Desktop Grid | TSP* | WEP-M+2 Project

- Metaprojekte -

AlmereGrid | Leiden Classical | The Lattice Project | World Community Grid | yoyo@home

- Meteorologie -

APS@Home | BBC Climate Change Experiment* | ClimatePrediction.net | Climate Prediction Seasonal Attribution Project

- Nanotechnologie -

NanoHive@Home* | Spinhenge@home

- Physik -

AQUA@home | EDGeS@Home | IBERCIVIS | LHC@home | Magnetism@home | QuantumFIRE | Zivis Superordenador Ciudadano* | µFluids@Home

- Rendering -

BURP | PicEvolvr | Open Rendering Environment

- Spiele -

Chess960@Home | NQueens@Home | pPot Tables* | Sudoku

- Tests der BOINC-Plattform -

Pirates@Home | Project Neuron* | UCT: malariacontrol.net | vtu@home


* Beendetes Projekt
Nicht-BOINC-Projekte

- Astronomie & Astrophysik -

SETI@home Classic*

- Biologie & Medizin -

Folding@Home | Lifemapper*

- Mathematik -

RC5-72


* Beendetes Projekt