• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Astronomi genererar berg av data – det är perfekt för AI
    En drönares vy av Rubin-observatoriet under uppbyggnad 2023. Det 8,4 meter långa teleskopet närmar sig färdigställande och första ljus 2025. Teleskopet kommer att skapa en enorm mängd data som kommer att kräva speciella resurser att hantera, inklusive AI . Kredit:Rubin Observatory/NSF/AURA/A. Pizarro D

    Konsumentklassad AI hittar sin väg in i människors dagliga liv med sin förmåga att generera text och bilder och automatisera uppgifter. Men astronomer behöver mycket kraftfullare, specialiserad AI. De stora mängderna observationsdata som genereras av moderna teleskop och observatorier trotsar astronomers ansträngningar att utvinna all dess betydelse.

    Ett team av forskare utvecklar en ny AI för astronomiska data som kallas AstroPT. De har presenterat det i en ny artikel med titeln "AstroPT:Skala stora observationsmodeller för astronomi." Tidningen är tillgänglig på arXiv preprint-server, och huvudförfattaren är Michael J. Smith, en dataforskare och astronom från Aspia Space.

    Astronomer står inför en växande störtflod av data, som kommer att expandera enormt när Vera Rubin Observatory (VRO) kommer online 2025. VRO:n har världens största kamera, och var och en av dess bilder kan fylla 1 500 storbilds-TV-apparater. Under sitt 10-åriga uppdrag kommer VRO:n att generera cirka 0,5 exabyte data, vilket är cirka 50 000 gånger mer data än vad som finns i USA:s Library of Congress.

    Andra teleskop med enorma speglar närmar sig också första ljuset. Giant Magellan Telescope, Thirty Meter Telescope och European Extremely Large Telescope kommer tillsammans att generera en överväldigande mängd data.

    VRO:s behov av flera webbplatser för att hantera all sin data är ett bevis på den enorma mängd data som den kommer att generera. Utan effektiv AI kommer denna data att fastna i en flaskhals. Kredit:NOIRLab

    Att ha data som inte kan behandlas är detsamma som att inte ha data alls. Det är i princip inert och har ingen mening förrän det har bearbetats på något sätt. "När du har för mycket data, och du inte har tekniken för att bearbeta den, är det som att inte ha några data", säger Cecilia Garraffo, en beräkningsastrofysiker vid Harvard-Smithsonian Center for Astrophysics.

    Det är här AstroPT kommer in.

    AstroPT står för Astro Pretrained Transformer, där en transformator är en speciell typ av AI. Transformatorer kan ändra eller omvandla en ingångssekvens till en utgångssekvens. AI behöver tränas, och AstroPT har tränats på 8,6 miljoner bilder på 512 x 512 pixlar från DESI Legacy Survey Data Release 8. DESI är Dark Energy Spectroscopic Instrument. DESI studerar effekten av mörk energi genom att fånga de optiska spektra från tiotals miljoner galaxer och kvasarer.

    AstroPT och liknande AI hanterar "tokens". Tokens är visuella element i en större bild som innehåller mening. Genom att dela upp bilder i tokens kan en AI förstå den större innebörden av en bild. AstroPT kan omvandla individuella tokens till koherent utdata.

    AstroPT har tränats på visuella tokens. Tanken är att lära AI:n att förutsäga nästa token. Ju mer grundligt den har tränats för att göra det, desto bättre kommer den att prestera.

    "Vi visade att enkla generativa autoregressiva modeller kan lära sig vetenskapligt användbar information när de är förtränade i surrogatuppgiften att förutsäga nästa 16 × 16 pixlar patch i en sekvens av galaxbildlappar", skriver författarna. I det här schemat är varje bildlapp en token.

    Den här bilden illustrerar hur författarna tränade AstroPT att förutsäga nästa token i en "spiraliserad" sekvens av galaxbilder. Den visar tokenmatningsordningen. "Eftersom galaxerna är i mitten av varje frimärke, tillåter denna uppsättning oss att sömlöst förträna och dra slutsatser om olika stora galaxfrimärken", förklarar författarna. Kredit:Smith et al, 2024

    Ett av hindren för att träna AI som AstroPT handlar om vad AI-forskare kallar "tokenkrisen". För att vara effektiv måste AI tränas på ett stort antal kvalitetstokens. I ett dokument från 2023 förklarade ett separat team av forskare att brist på tokens kan begränsa effektiviteten hos vissa AI, som LLM:er eller stora språkmodeller. "State-of-the-art LLMs kräver stora mängder textdata i internetskala för förträning", skrev de. "Tyvärr... är tillväxttakten för textdata av hög kvalitet på internet mycket långsammare än den datatillväxthastighet som krävs av LLM:er."

    AstroPT står inför samma problem:en brist på kvalitetstokens att träna på. Liksom annan AI använder den LOM:er eller stora observationsmodeller. Teamet säger att deras resultat hittills tyder på att AstroPT kan lösa tokenkrisen genom att använda data från observationer. "Detta är ett lovande resultat som tyder på att data hämtade från observationsvetenskaperna skulle komplettera data från andra domäner när de används för att förträna en enda multimodal LOM, och så pekar mot användningen av observationsdata som en lösning på "tokenkrisen". '"

    AI-utvecklare är ivriga att hitta lösningar på tokenkrisen och andra AI-utmaningar.

    Utan bättre AI kommer en databearbetningsflaskhals att hindra astronomer och astrofysiker från att göra upptäckter från de enorma mängder data som snart kommer att anlända. Kan AstroPT hjälpa?

    Författarna hoppas att det kan, men det behöver utvecklas mycket mer. De säger att de är öppna för att samarbeta med andra för att stärka AstroPT. För att underlätta detta följde de "nuvarande ledande samhällsmodeller" så nära som möjligt. De kallar det ett "öppet för alla-projekt."

    "Vi tog dessa beslut i tron ​​att kollaborativ samhällsutveckling banar den snabbaste vägen mot att förverkliga en stor observationsmodell med öppen källkod på webben", skriver de.

    "Vi bjuder varmt in potentiella medarbetare att gå med oss", avslutar de.

    Det ska bli intressant att se hur AI-utvecklare kommer att hålla jämna steg med den stora mängden astronomisk data som kommer vår väg.




    © Vetenskap https://sv.scienceaq.com