In dieser Folge von „Vom Hype zum Handeln“ spricht Petra Liebl mit Raphael Lepuschitz, Unternehmer, Informatiker und Technikethiker, über eine Entwicklung, die aktuell abseits der großen Cloud-Plattformen stattfindet: lokal laufende KI-Systeme – sogenannte Tiny-LLMs. Wir gehen der Frage nach, ob KI wirklich immer „groß“ sein muss oder ob kleinere, lokal betriebene Modelle für viele Unternehmen die bessere Lösung sind. Während bekannte KI-Tools wie ChatGPT, Gemini oder Claude in der Cloud laufen und Daten oft außerhalb Europas verarbeiten, ermöglichen lokale KI-Systeme mehr Datenhoheit, Kontrolle und Sicherheit. Raphael erklärt, warum diese Entwicklung technisch möglich geworden ist, welche Rolle Open Source, Modellkomprimierung und neue Hardware spielen – und warum heute bereits ein Mac Mini oder ein leistungsfähiger PC ausreichen kann, um KI im eigenen Unternehmen zu betreiben. Wir sprechen über konkrete Use Cases: Text- und Bildgenerierung, Wissensmanagement, interne Automatisierungen bis hin zu agentischen KI-Systemen, die wiederkehrende Aufgaben im Hintergrund erledigen – ohne sensible Daten nach außen zu geben. Gleichzeitig beleuchten wir auch die Grenzen lokaler KI: neue Modelle erscheinen zuerst in der Cloud, lokale Varianten folgen zeitverzögert. Für viele Unternehmen ist dieser Kompromiss jedoch gut vertretbar – vor allem im Hinblick auf Sicherheit, Kosten und Anpassbarkeit. Zum Abschluss werfen wir einen Blick in die Zukunft: Lokale KI wird in den kommenden Jahren zum Standard – auf Geräten, in Unternehmen und darüber hinaus. Entscheidend bleibt dabei das Prinzip Human-in-the-Loop: KI unterstützt, der Mensch behält die Kontrolle.
Muss KI wirklich groß sein – oder reicht klein & smart?
In dieser Episode spricht Petra Liebl mit Raphael Lepuschitz über lokal betriebene KI-Systeme (Tiny-LLMs) und warum sie für viele Unternehmen eine echte Alternative zur Cloud sind.
Raphael stellt die TinyLLMs auch im Rahmen des KI Cafés der WK Tirol vor. Nächster Termin ist am 21. Januar 2026.
🔍 Themen der Folge:
🎙️ Gast in Folge 20: Raphael Lepuschitz
Künstliche Intelligenz entwickelt sich rasant weiter und eine der spannendsten Entwicklungen derzeit findet abseits der großen Rechenzentren statt, nämlich direkt auf unseren eigenen Geräten.
Warum das so ist? Immer mehr KI-Systeme lassen sich lokal betreiben. Das geht effizient, ist datensicher und vor allem mit vertretbarem Aufwand sogar für Klein- und Kleinstunternehmen machbar.
"Willkommen bei Vom Hype zum Handeln dem Podcast zur Transformation im Zeitalter der künstlichen Intelligenz."
Während nämlich herkömmliche große, Large-Language-Modelle wie ChatGPT, Claude, Lama, Gemini enorme Rechenressourcen brauchen und außerhalb Europas betrieben werden, weisen kompakte und lokal einsetzbare KI-Modelle, die sogenannten Tiny-LLMs, als Alternative einen ganz anderen Weg.
Sie laufen nämlich genau dort, wo die Daten entstehen in deinem Unternehmen selbst. Damit sind wir direkt bei der zentralen Frage dieser Folge. Muss KI wirklich groß sein oder vor allem smart?
"Mein Name ist Petra Liebl und ich begrüße dich ganz herzlich zu einer neuen Folge von “Vom Hype zum Handeln” dem Podcast zur Transformation im Zeitalter der künstlichen Intelligenz."
Darüber spreche ich heute mit Raphael Lepuschitz, der technische Kompetenz, unternehmerische Erfahrung und gesellschaftlichen Weitblick verbindet.
Raphael hat Philosophie und Informatik studiert, sich mit Technikethik auseinandergesetzt, erhält Vorträge und Vorlesungen zur KI und ist seit über zehn Jahren selbstständig mit seiner Agentur Lepuschitz Media. Werbung der Wirtschaftskammer Tirol ist er seit vielen Jahren aktiv und seit 2025 auch stellvertretender Obmann.
Kennengelernt habe ich Raphael beim ersten KI-Café der Wirtschaftskammer in Kufstein, das er gemeinsam mit Anna-Maria Stiefmüller ins Leben gerufen hat. Dort bekommen UnternehmerInnen einen praxisnahen und niederschwelligen Zugang zur KI. Ich durfte dort einen Expertentisch zum Thema KI-SEO betreuen, denn auch in der Suchmaschinenoptimierung erleben wir derzeit massive Veränderungen durch künstliche Intelligenz.
Raphael selbst ist vielseitig: Musiker Unternehmer, lange in der Kreativwirtschaft tätig und, wie ich spätestens seit dem KI-Café in Kufstein weiß, intensiv mit kompakten lokal nutzbaren KI-Systemen beschäftigt.
Lieber Raphael, bevor wir tiefer ins Thema einsteigen, warum beschäftigst du dich mit Tiny-LLMs oder lokal laufenden KI-Systemen?
Ja hallo Petra. Zuerst einmal vielen Dank für die Einladung. Es freut mich sehr, dass ich heute da sein darf beim Transformations-Podcast. Ich bin schon sehr gespannt.
Sagen wir es so, es ging bei mir ähnlich los wie bei den meisten Leuten irgendwann im letzten Jahr.
Also mit KIs beschäftige ich mich schon viel länger, ich habe meine Diplomarbeit 2010 unter anderem zu dem Thema geschrieben und ich habe natürlich die Entwicklung der letzten, sagen wir mal drei oder vier Jahre Seit ChatGPT, habe ich intensiv mitverfolgt und eben auch verwende es in meiner Werbeagentur, habe auch eine neue Firma dazu gegründet, aber dass ich mich mit Tiny-LLMs oder Tiny-AIs im Allgemeinen beschäftige, das ist so seit einem Jahr der Fall.
Und das hängt ein bisschen zusammen mit dem DeepSeek-Schock wie es viele nennen – als es eben zum ersten Mal ein vergleichbares, sehr leistungsstarkes Modell aus China gegeben hat - im Jänner 2025. DeepSeek hat das relativ schnell dann auch als Open Source Model veröffentlicht.
Stimmt.
Und ich habe mich natürlich auch die letzten Jahre ein bisschen mit den Open Source KIs beschäftigt und andere Kollegen haben das auch aufgesetzt auf lokalen Servern. Ich habe mir die YouTuber angeschaut, wie das so gemacht wird. Jetzt selbst begonnen habe ich erst in diesem [00:04:00] Jahr und bin da drauf gekommen, dass das halt wirklich super funktioniert und habe da diverse Erfahrungen gesammelt.
Und das Spannende für mich ist vor allem das, was du schon angesprochen hast, dass man eben die eigene Datenhoheit auch wirklich hat. Das ist gerade für Firmen total wichtig. Unternehmerinnen und Unternehmer wollen natürlich, dass die Kundendaten nicht nach außen kommen. Das hat nicht nur Gründe rechtliche, also Stichwort DSGVO, sondern das betrifft natürlich auch, möchte man irgendwie Daten an die Konkurrenz rausgeben und so weiter.
Und da überlegen sich natürlich viele: Sind meine Daten auch in den Data Centers von den amerikanischen, chinesischen oder sonstigen Anbietern sind die da auch sicher? Wie werden die weiterverwendet? Fließt das auch ins Training mit ein? Und hier sind die Tiny-LLMs also eine ganz spannende Alternative dafür, Und deswegen habe ich begonnen, mich damit intensiver zu beschäftigen.
Danke, Raphael. Also wenn wir jetzt gemeinsam der Frage nachgehen, welche Chancen diese Tiny LLMs bieten, also wenn die KI nicht direkt in der Cloud läuft, hast du uns jetzt schon einen super Vorgeschmack geben. Vielleicht können wir es uns jetzt Stück für Stück anschauen.
Vielleicht ist es für die Zuhörer interessant, was so Unterschiede sein können. Also vielleicht, dass wir es zuerst einmal greifbar machen. Wovon wir heute sprechen ist, dass die KI, also diese künstliche Intelligenz die Chatbots, ob die jetzt heißen, Chat-GPT, Gemini, Llama,
also DeepSeek natürlich ist der Klassiker DeepSeek, genau. Und altes Modell ist natürlich Siri. Also es gibt ja schon viele unterschiedliche
Es gibt ja doch einige, genau. Und die laufen ja alle in der Cloud. Sprich halt irgendwo im Nirgendwo, wie ich immer so sage. Und alles, was wir da chatten landet in den USA oder DeepSeek wie du schon gesagt hast, in China.
Ist denn da jetzt spannend daran, dass das lokal wird? Also das, was du ja erzählst mit dem Tiny LLM, heißt ja, nichts mehr da Daten nach oben schicken, sondern hier behalten. Was hat sich in der Technologie verändert, dass das möglich ist?
Genau. Also es hat schon in den letzten Jahren begonnen, dass sehr viele Firmen auch ihre Machine Learning Models und anderen KI-Modelle, also es gibt ja nicht nur LLM-Models sondern es gibt natürlich Visual und Audio und so weiter, dass diese ganzen Models auch als Open Source Models downgeloadet werden können und lokal installiert werden können.
Die waren allerdings noch immer relativ groß - und das heißt sperrig. Es war damals schwierig, die richtige Hardware zu finden, also man brauchte wirklich gute GPU, ordentlich viel RAM und eigentlich, ja, einen halben Server schon, damit es...
Hilfe!
Und ich meine damit einen großen Server, also nicht so eine kleine Firmencomputer damit es halbwegs läuft, aber es hat sich unter anderem weil eben auch DeepSeek gezeigt hat, dass die KIs durch eben, dass man sie verkleinert komprimiert, Surrogate bildet und Dass sie nicht mehr so speicher- und laufzeitintensiv sein, eine abgespeckte Version sozusagen.
Und da gibt es natürlich ein bisschen Einbußen, also in der Qualität von der Genauigkeit. Da kann man jetzt allerdings sagen, also zum Beispiel, wenn man ein 32 GB Modell auf 16 GB laufen lässt zum Beispiel, Das wird dann nicht mehr so genau sein, da hat man dann zum Beispiel 88%ige Genauigkeit oder so irgendwas.
Da gibt es irgendwann einmal eine Grenze, wo man sagt, da funktioniert es nicht mehr.
Okay, bevor wir da jetzt ganz, ganz auf die Tiefe gehen, vielleicht, was du mir jetzt erklärt hast, darf ich das kurz drückspiegeln, ist, dass das Large Language Model, also wo wir immer gesagt haben, diese Trainingsdaten sind ja exorbitant für diese ganzen Systeme Und den Deep-Seek-Schock-Moment, den es gegeben hat, oder dass die das mit relativ weniger Ressourcen gemacht haben.
Und wie du sagst dann, also die haben das ja viel schlanker programmieren können, weil sie da halt ein Destillationsverfahren angewendet haben. Und damit, und weil sie das Open Source zur Verfügung gestellt haben, das ist eigentlich die Veränderung die das möglich gemacht hat. Sehe ich das richtig?
Ja, also das Open Source war natürlich dann nur der letzte Schritt von Ihnen. Das war von Ihnen die firmenpolitische Entscheidung Aber du hast das eigentlich genau richtig beschrieben eben mit dem Destillat. Also, dass man das ein bisschen kleiner macht und dass man die Modelle eben sozusagen, man tut es zuerst pre-trainen.
Genau. Die werden dann so vortrainiert in den großen Datacentern aber diese vortrainierten Datensätze, die kann man sich dann sozusagen als kleines Modell dann abspeichern und Das heißt, Man nimmt sozusagen schon ein fertig vortrainiertes Modell her, wie ich vorher erwähnt habe, entweder für Text oder für Bild oder für Ton oder für Sprache und man kann es dann noch anpassen, da kommen wir dann wahrscheinlich noch dazu.
Aber das ist so ungefähr genau das was da passiert ja das ist das also KI lokal weil im kleiner handlicher nenne es jetzt einfach mal und was du auch schon anklingen hast in eingangs oder in deinem Eingangsstatement war das so gesagt dass das ist sehr effizient und es ist relativ datensicher insofern den Vorteil also der ist ja Cloud versus Lokal hast du schon hervorgehoben. Und da hast du wegen der Daten oder der Datensicherheit einen bestimmten Aspekt den wir beleuchten könnten?
Ganz genau. Und das ist ja auch schon im Transformations-Podcast mehrfach vorgekommen. Es hat ja eigene Sendungen schon zu diesen Themen gegeben.
Stichwort sage ich jetzt einmal ganz stark DSGVO und AI-Act. Und da geht es natürlich darum auch, Wohin kommen die Daten und wer hat die Datenhoheit und da ist es eben nicht nur für Firmen interessant aus juristischen Gründen, sondern eben auch aus Gründen der Konkurrenz oder anderer Gründe wo man sagt, wir haben ein cooles Tool, das entwickeln wir neu und wir wollen dieses Tool auch mit einer KI-Funktion ausstatten oder mit KI-Hilfe entwickeln.
Aber wir wollen nicht, dass irgendjemand anders davon Wind bekommt. Und dann ist natürlich eine lokale KI, die man sich beim Server in der Firma installiert oder sich einen kleinen Computer speziell dafür kauft, da läuft es dann. Und damit kommen die auch nicht in die Cloud, damit bleiben sie in der Firma, in der IT-Infrastruktur Und das ist natürlich ein Riesenvorteil.
Also wenn ich dich richtig verstanden habe, fassen wir es gerade nochmal zusammen. Es muss nicht ein großer Datenserver sein, von dem du zuerst gesagt hast, sondern ganz klein, ganz handlich. Es ist effizient und datensicher. Jetzt frage ich mich, hui, alle Probleme gelöst, also die viele abhalten sich mit dem Thema wirklich in der Firma intensiver zu beschäftigen, weil sie sagen, das ist viel zu gefährlich. Haben wir schon relativ viel abgeräumt sehe ich das richtig?
Das ist eigentlich so und das ist auch der Hauptgrund, warum ich sage, also ich empfehle das auch meinen Kunden, dass sie natürlich sich überlegen sollten, nicht sich noch weitere KI-Modelle oder Abos zu holen sondern eben auch mal probieren, vielleicht setzen sie es lokal auf.
Und lassen das ganze lokal laufen und schauen sich mal an, ob sie damit arbeiten. Super Weil wie du sagst, wenn sie das lokal machen, du hast jetzt schon angesprochen, diese Abos, das ist ja dann eine wirtschaftliche Überlegung wenn man sagt, okay, einmal das anschaffen, das muss eben nicht der Große selber sein.
Du hast ja mir mal gesagt, das kann wirklich recht handlich sein. Also ich darf mir da wirklich so ein Mac Mini vorstellen, oder? Wirklich so 10x10 oder was hat er, 12x12? So was, ja. So ein kleines Kastl und das wird schon reichen ?
Genau und da ist das Einsteigermodell die beginnen ja irgendwo bei 600 Euro, das ist wirklich relativ günstig, das heißt man kauft sich da einen Mac Mini, , es sollte einer von den neuen Generationen sein, also M3 oder auf jeden Fall besser wäre ein M4 Chip.
Ab dem Zeitpunkt laufen die super, die haben Shared Memory, das bedeutet, dass der RAM wird nicht mehr nur entweder [00:12:00] der eine RAM für die Programme verwendet und der andere RAM für den Grafikspeicher, sondern der wird geteilt. Und das ist für die KI-Modelle ganz super, was Apple sich da überlegt hat, weil das ist das Ideale um genau so kleine destillierte Tiny-LLMs dort lokal laufen zu lassen.
Weil die da auf den Shared Memory eben zugreifen können.
Das heißt, man hat ein Mac Mini und statt, dass sie jetzt so, wie wir es alle machen, sage ich mal, ob jetzt jemand ein Pro-Account hat, ob er ein API nutzt oder ob er das kostenlose Variante von ChatGPT, Llama, Gemini oder was immer nutzt, dann greift man ja über die Cloud darauf zu.
Oder wir machen uns einen API-Zugang, weil man das halt technisch Verwenden. Aber wenn es jetzt den Mac Mini gibt, dann?
Das läuft eigentlich ganz gleich und mir ist wichtig auch zu sagen, es gibt nicht nur die Mac Mini Lösung, also man kann einen relativ guten Gaming PC mit einer halbwegs starken Nvidia Karte, kann man auch ohne Probleme zum KI Server upgraden.
Und das läuft dann ungefähr so, man hat einfach da diese Maschine bei sich stehen, die sollte dann idealerweise im gleichen WLAN-Netzwerk sein, man kann sie natürlich auch über das LAN-Kabel einfach anstecken und man gibt der Maschine eine IP-Adresse und auf der Maschine läuft dann ein Programm, zum Beispiel das O-Lama.
O-Lama ist eine Software, die kann man sich installieren und da gibt es auch eine Website dazu und dort findet man die Modelle zum Download. Das heißt, man installiert sich die O-Lama-Software, downloadet dann das Modell das man haben möchte, zum Beispiel GPT-OSS oder man möchte haben eben Llama oder man möchte DeepSeek oder Mistral aus Frankreich.
Man kann sich die runterladen und installieren und die laufen dann lokal auf dieser Maschine zusammen Die hat dann eine IP-Adresse und ist eben ein, wie jeder andere Server in der Firmeninfrastruktur, kann man den dann einfach ansprechen über die IP-Adresse und Stichwort API, weil du es schon angesprochen hast, die API ist ja nichts anderes als einfach eine Programmschnittstelle die in der Mitte ist.
Das heißt, wenn... Jetzt unser KI-Server in der Firma steht und der hat eine IP-Adresse und es läuft auf dem O-Lama, dann richte ich das intern einfach netzwerktechnisch das sind ein paar Klicks einfach so ein, dass ich von meinem Endgerät von meinem Computer kann ich mich einfach dort verbinden, zum Beispiel in ein Browser-Fenster oder wie auch immer, mache ein neues Browser-Fenster auf, aber anstatt dass dort reinschreibe, chat-gbd.com, schreibe rein 192.168.0.100.
Und dann bin ich schon bei diesem Kreditzimmer Bist du bereits dort. Das heißt, es ist eigentlich die API, genau, es ersetzt ist die API, exakt, das heißt, ich glaube, das ist eine gute Erklärung dass man sagt, das Gerät ist, der Gerät ist niemals müde ja, und das Gerät ist die API, es ist wirklich bei mir lokal, dort rennt es, jetzt ist für mich die Frage, du hast gesagt, man loggt sich ein, ladet sich die Software runter und installiert sich das Modell.
Du hast mich schon einmal schauen lassen und wir haben das gesehen. Das Modell da gibt es ja auch schon etwas zu sagen, glaube ich. Da kann man ja auch schon ein bisschen zaubern.
Genau, und es gibt da vor allem ganz, ganz viele unterschiedliche, was wir schon vorhin auch angesprochen haben. Wir haben eben diese unterschiedlichen LLMs, die sind wirklich für Text, Mathematik Code und ähnliche Sachen, die einfach mit Textkörpern trainiert werden.
Die funktionieren ja auch anders als jetzt die Sound oder Audio- oder Video- oder Bildgenerierungstools. Das heißt, da gibt es immer eigene Modelle. Einfach nur zur Info aber die meisten Leute, die sich mit Computern auskennen, werden das eh schon öfters gehört haben. Die Videomodelle sind immer die, die am allermeisten Energie brauchen.
Logisch. Bild und Audio geht interessanterweise auch auf den lokalen KIs schon ziemlich gut. Die kann man auch einfach runterladen und dann einfach sagen, bitte generiere mir ein Bild von bla bla bla. Promptet das schön rein, macht die Beschreibung und dann wartet man ein bisschen und dann kriegt man das Bild ganz genau so, wie man es bei Chat-GPT macht oder bei Gemini oder bei Mid-Journey.
Genial. Und da ist man gerade noch einmal auf das zurückgekommen. Du hast jetzt drei genannt. Es könnten auch vier sein, es könnten zwei sein, es können fünf sein. Wenn ich die Wirtschaftlichkeit betrachte und du hast gesagt, es kann der alte oder halbwegs neue Gaming-PC sein, es könnte eben ein Mac Mini sein M4 soll es sein, genau, also ungefähr 600 Euro.
Und ich weiß jetzt, durchschnittlich zahlt man 25 oder vielleicht 30 Euro pro Monat pro Modell. Also sagen wir, ich hätte ChatGPT, und noch ein zweites in Einsatz, Co-Pilot ist mir jetzt einmal egal der Name, dann würde ich schon 60 zahlen und dann habe ich vielleicht zwei Mitarbeiter, dann kostet mir das ja schon 120 im Monat.
Dann nimmt man noch einen Suno oder Udio-Account, weil man gerne Den Sound Anno selber machen möchte, dann zahlt man da nochmal 30 Euro dazu. Ja. Dann braucht man noch Midjourney, weil man sagt, ja, ChatGPT ist ganz okay zum Bilder generieren ist halt nicht so super. Dann nimmt man sich Midjourney Pro Account auch noch und normalerweise hat man Firefly auch noch in der Creative Suite mit dabei.
Das heißt, man hat dann sehr viele KI-Systeme die man parallel bezahlt. Jeden Monat eben, wie du sagst, 20, 30 Euro pro System. Und das läppert sich natürlich zusammen. Wenn ich jetzt nur ein System habe, dann weiß ich, da brauche ich jetzt nicht das durch eine lokale KI ersetzen Kann ich auch schon Kann ich aus Sicherheitsgründen wie wir gesagt haben oder Aber finanziell amortisiert sich das wahrscheinlich erst nach ein paar Monaten.
Wenn ich jetzt aber jemand bin, der sagt, ich verwende viele unterschiedliche KI-Systeme dann rentiert sich das ziemlich schnell. Das heißt, nach ein paar Monaten ist alles, was man sonst für Abos bezahlt hätte Schon wieder herinnen. man hat natürlich noch einen anderen großen Vorteil.
Man kann die viel genauer anpassen. Also man kann natürlich sagen, ich möchte noch einmal post-trainen Das ist für die größeren Projekte wichtig. Oder man schreibt sich einfach einen eigenen Priming-Sheet nochmal dazu und sagt zur KI schon, du bist ein Text-Tool du machst nur das und gibst mir die Antworten immer.
In drei Absätzen, die sollen in dem und dem Marketing-Sprech sein oder so, dann macht die genau das.
Was für Use Cases außer jetzt Textautomatisierungen oder Bildern, kannst du dir denn vorstellen?
Also da gibt es viele spannende Ideen das spielt ein bisschen rein, was ich jetzt auch vorher kurz angesprochen habe. Priming oder Post-Training, man hat diese lokale KI kann die viel genauer feintunen und sagen, für was sie ist und für da werden sie auch verwendet von meinen Kunden, die wollen dann zum Beispiel etwas sehr Spezielles haben das heißt, man muss es dann eigentlich lokal betreiben lassen Weil es gibt diese Möglichkeit bei den anderen KIs gar nicht.
Das heißt, man sagt den KIs auch immer, was sie tun sollen. Genau, dann ist es für diesen einen Fall, für diesen einen Kunden konfiguriert sage ich jetzt einfach mal sehr stark angepasst Genau so.
Super. Du hast mir ja davor schon verraten es könnte ja sein, dass das jemand privater nutzen will, weil er ganz spezielle Anwendung hat, wo er sagt, ich will nicht, dass das mitgetrackt wird, das wäre ja auch ein Fall, dann haben wir schon einmal gesprochen, ich mit meinem Felix da, mit meinem Text-Tool das in Markensprache daherkommt, weil er halt vorher trainiert wurde von mir, der greift via API Auf ChatGPT zu.
Wir haben schon überlegt ob wir das so machen, dass wir auch keine anderen Modelle auswählen. Das wird auch der Fall sein. Aber ich finde die Überlegung toll, dass ich sage, ein Kunde von dir würde das wollen, so ein Text-Tool wie es mal Felix ist, und der möchte aber nicht, dass die Daten in der Cloud landen Dann wäre ja bei dir und deinem TinyLLM gut aufgekommen oder?
Genau. Und da möchte ich aber ganz kurz noch dazusagen, also zwischen Cloud und Cloud muss man auch unterscheiden. Es gibt da natürlich die großen Anbieter wo die Daten alle hinkommen, aber es gibt natürlich auch die Alternative diese Open-Source-Modelle sich woanders auf einen anderen Server in der Cloud aufzusetzen.
Und das... Da ist natürlich, wenn der halbwegs abgesichert ist und wenn es ein guter Provider ist und wo man auch sicher ist, dass die Daten sauber gehostet werden und dass niemand von außen einbricht, ist das auch relativ sinnvoll. Auch hier macht man es wieder so.
Man mietet sich dann zum Beispiel, einen Dedicated Server dazu, dort kann man dann auch die KIs wieder installieren, dort halt lokal im Rechenzentrum bei denen, hat wieder die IP, kann in dem Fall dann die Website oder die App auf das connecten und die Daten von dort .
Wenn ihr also hört, dass das recht günstig realisierbar ist, Ich finde das erstens schon mal toll, weil bisher habe immer gehört, dass es sehr, kostspielig ist und dass ganz große Unternehmen machen in ihrem eigenen fast Serverpark.
Und jetzt ist das eine Demokratisierung, finde ich. Und für was könnte man das alles in der Praxis so einsetzen? Was sind denn so Use Cases, wo du sagst, das ist jetzt deine LLM, ist total gut geeignet für... Bitte lass uns mal der Fantasie spielen.
Ja, also das sind einfach die klassischen Anwendungen die wir eh alle schon die letzten Jahre verwendet haben.
Wir können es verwenden als Chat-Tool einfach für uns selber, wir können es nehmen zur Textgenerierung, wir können es nehmen für Social Media Optimierung Also eigentlich alle Einsatzmöglichkeiten die es bei KIs gibt und eben, um das nochmal dazu zu sagen, LLMs sind nicht die Grenze, nehmt auch die anderen her, probiert vielleicht auch ein Bildgenerierungstool, Audiogenerierungstool, Stimmerkennungstool oder Stimmgenerierungstool gibt es inzwischen auch, also so Sprecherstimmen, das kann man auch alles lokal laufen lassen Und kann ich nur sagen, sind jetzt wirklich Medienschaffenden die Türen geöffnet.
Weil damit kann man jetzt wirklich alles machen und muss nicht immer schauen, habe ich jetzt genug Credits noch, soll ich das Video noch rendern Der Limit ist da der Sky, also die Stromkosten oder wie schnell die Grafikkarte halt läuft. Das ist dann ungefähr da die Grenze. Ja, das ist absoluter Punkt, ich weiß, wie es ist, wenn man ein Video oder wenn man Voice-Cloning oder was macht, du brauchst das nächste Level Account , weil die Tokens nicht reichen. Was natürlich noch ein sehr spannender Use Case ist, wenn man Agents also agentische KI nicht in der Cloud laufen lässt, sondern gerade für Anwendungen die im Büro stattfinden.
Super. Die sollte man ja gar nicht in die Cloud schicken. Das heißt, wenn ich wiederkehrende Tasks Habe oder zeug wo ich war sehr die Pipeline läuft zu und so und ich muss immer auf das e mail wird immer das geantwortet oder es muss etwas anderes automatisiert passieren da bietet sich total an dann habe ich lokal in der Birma bei mir die KI mitrennen muss gar nicht in der Firma sein weil der Server ist an ja dann kommt das e mail rein oder die Bestellung dann wird automatisch wenn drei Sachen angetriggert Und die Rechnungslegung ist schon fertig oder so.
Ich sehe es auch sehr da, also wie du sagst, interne Prozesse oder auch Wissensmanagement ist genau das Thema, da wollen Unternehmungen, vielleicht ist es ein Steuerberater, vielleicht ist es ein Rechtsanwalt die wollen ja nicht, dass diese Daten, Irgendwo verarbeitet werden, auch wenn sie keine personenbezogenen eingeben.
Aber die wollen ihr Wissen im Betrieb halten und das finde ich total smart, dass das über deine LLMs geht.
Genau und gerade eben für Wissensverwaltung oder so weiter ist das für Firmen insofern interessant, weil man kann natürlich den KIs auch sagen, Schau dir diesen Folder an, da liegen unsere Kundenunterlagen oder unsere bisherigen Rechnungen.
Baue alles genauso auf wie hier oder gib der KI eine Schnittstelle zum Wiki oder zu irgendwelchen anderen Dokus die in der Firma liegen. Das heißt, die KIs können ja selber andere Webseiten durchsuchen und sie können auch Folder also Dateien und Ordner einfach auf irgendeinem Computer durchsuchen.
Wenn man ihnen das dann gleich mitgibt und sagt, verhalte dich immer so, dann sehen die anhand von der Vorlage schon, Was sie eigentlich zu tun haben und gerade das sind eben Daten, die gibt man ungern in die Cloud, die sollten wirklich in der Firma liegen Richtig, und da sind wir beim Agentischen, das du jetzt genannt hast, oder?
Schlussendlich ist das ja ein Ablauf, ein kleiner Workflow, schau da nach, mach dies, reagiere dann so und dann habe ich aber meinen Agenten für mich im Haus. Genau, da muss ich noch dazu sagen, müsste man noch was dazu haben, also da muss man dann auch einen Cronejob haben, der den Agenten immer anstößt das ist aber auch keine große Zauberei, das Intervall ist dann einmal in der Minute, alle fünf Minuten, einmal in der Stunde wird der angestartet und arbeitet dann alle seine Prozessroutinen einfach ab.
Genau und dafür finde ich es eben spitze dass man das nicht wieder über die halbe Welt verschickt, sondern das einfach intern im Büro macht.
Finde ich schon wieder smart. Ja, also ich glaube, wenn wir mit dir da plaudern , das könnte man noch eine Stunde fortsetzen, da hast du sicher...
Millionen Ideen. Wenn wir jetzt vielleicht mal in die andere Richtung schauen, deine LLMs, so sehr du sie gut findest, aber sie haben auch ihre Grenzen und , wo wären denn die? Gibt es etwas, das keine Limit hast du gesagt, oder gibt es eine kleine Einschränkung da oder dort?
Also wir haben als Grenzen natürlich mal das dass die großen KI-Modelle die werden alle zuerst einmal trainiert in den großen Data Centers. Und das hat keiner von uns. Wir werden schon auf jeden Fall irgendeine Open-Source-Kleinere-Variante nehmen.
Und da haben wir einen zeitlichen Delay sage ich jetzt einmal. Logischerweise, weil wenn zum Beispiel OpenAI jetzt das neue ChatGPT-Modell rausbringt, werden sie das zuerst auf ihren Servern veröffentlichen Und dann kommt irgendwann einmal ein halbes Jahr bis ein Jahr später, ist das Model dann open source und online, man kann es sich herunterladen und dann installieren.
Das heißt, auf gut Deutsch, man kann mit den Tiny-LLMs sehr, sehr viel machen und ist auch eigentlich schon immer am Puls der Zeit, weil auch mit dem Agentischen und mit dem Internet-Suchmodi kann man natürlich die auch real-time recherchieren lassen. Aber wenn man sagt, ich möchte genau das allerneueste Modell das geht natürlich in dem Fall nicht, weil die Firmen werden die am Anfang noch nicht rausgeben.
Für mich ist noch so eine Frage, du sagst ja, da geht man hin und hat dann sein Gerät ob Mac Mini oder was anderes, und installiert sich die Software, ladet sich die Modelle herunter. Wie viel IT-Know-how braucht man denn da, um das zu machen?
Mache ich das jetzt selber oder rufe ich da besser bei dir an?
Beide Möglichkeiten gehen. Also für alle, die relativ computerbasiert sind, sage ich, Das ist keine große Hexerei. Macht es selber. Also wie gesagt, man geht da auf die OLAMA Website, lädt sich mal die Software runter, lädt sich dann die Modelle runter, installiert das Ganze, sucht sich dann in der Software das Modell aus und hat aber schon so ein Chatfenster das genau das auch macht, wie man es kennt von ChatGPT und allen anderen und kann dann einfach drauf los chatten.
Also wäre ein guter Start. Wenn ich dann was Spezielleres brauche, dann rufe ich dich an. Ab dem Zeitpunkt, wenn man mit dem nicht mehr zurechtkommt oder wenn man sagt, ich möchte eigentlich meine KI auf ganz spezielle Anwendungen post-trainen oder primen oder mir eine Pipeline bauen, die etwas komplizierter ist, dann ist eben meine neue Firma namens RoboLabs genau der richtige Ansprechpartner Wir machen da AI-Consulting Wir machen natürlich auch Training und Workshops und Content Creation, aber eben der Consulting-Teil ist ein sehr großer Teil
Das heißt, wir unterstützen Firmen bei der KI-Infrastruktur und setzen uns mit den IT-Technikern und mit den Systemadministratoren zusammen, besprechen, wie man das am besten implementiert und Schauen dass das dann eben bei den Firmen lokal läuft in der Firmeninfrastruktur.
Wenn wir jetzt noch einen Ausblick wagen und sagen, okay, jetzt funktioniert das ja schon sehr gut mit den Tiny LLMs. Für mich ist die Frage... wird das ein Standard oder ist das, fristen deine LLMs deiner Meinung nach ein Nischendasein Wie wird sich das dort zukünftig entwickeln Hast du da eine Idee?
Ja, also ich glaube, dass die aktuelle Handy-Generation, da kann man auch nämlich schon kleine LLMs installieren wenn man sich das antut. Allerdings hat man da auch ein bisschen von der Chip-Architektur und vom Rahmen und so weiter natürlich starke Einschränkungen. Es ist jetzt allerdings so, dass natürlich schon die ersten Neural Processing Units NPUs, eben statt CPU oder GPU, werden entwickelt oder auch schon ausgeliefert.
Es gibt KI-Chips auch schon bei den iPhones und bei den neueren Android-Modellen. Das heißt, ich rechne damit, dass spätestens 2030 eine lokale KI, nennen wir sie jetzt mal so, standardmäßig auf jedem Handy laufen wird als lokaler Assistant. Und das bedeutet, auch wenn man kein Internet hat, Kann man mit dem Handy ganz normal reden und das Handy wird einem sinnvolle Antworten geben.
Jetzt sind wir noch nicht ganz so weit, aber das wird dann eben in fünf Jahren, schätze ich, wird das schon Standard sein. Aber was ist für Firmen nur vielleicht die Systeme der Einsatz und die Größe und die Effizienz aber von der grundsätzlichen Idee, also Datenhoheit, Dann natürlich Anpassung Anpassbarkeit, dann keine Pipeline Breaks, also alles, was einmal installiert ist und läuft.
Skalierung und Preis, das heißt, wir haben mehrere Faktoren, die einfach sind, wo ich sage, aus Firmensicht rentiert sich das komplett, sich jetzt schon darauf einzustellen. Dass man die KIs irgendwie entweder lokal oder in einem Datacenter seiner Wahl betreibt aber nicht in den, ich sage jetzt mal, bei den Big Tech Companies.
Die werden sowieso die KI-Modelle weiter trainieren. Logisch Und sie werden sie auch ausliefern und Open Source stellen. Aber man möchte, das haben wir jetzt einfach schon angesprochen eigentlich nicht, dass das mit eben den eigenen Daten oder mit den Kundendaten oder mit anderen sensiblen Daten gemacht wird.
Genau. Also danke, dass du das nochmal quasi zusammengefasst hast. Ich glaube, das ist auch gut rübergekommen, dass man als Unternehmen aus Sicherheitsgründen wie wir schon gesagt haben, Datensicherheit aber auch aus Kostengründen sehr, sehr viele Gründe hat, ein lokales Unternehmen LLM zu betreiben oder Tiny LLM.
Und vielen, Dank für diese Einblicke. Jetzt ist noch, apropos Einblicke, ihr macht ja wieder KI-Café ist das richtig? Wann findet denn das nächste statt?
Genau, also das KI-Café ist ein neues Format, das haben die Anna-Maria Stiefmüller und ich im November begonnen. Da waren wir zuerst in Kufstein und Das gleiche starten wir jetzt auch in Innsbruck Das ist am 15. Jänner im Weißraum.
Cool.
Ich glaube um 6 oder 7 Uhr am Abend werden wir das machen. Es gibt zuerst einen allgemeinen Vortrag über KIs von Anna-Maria und danach werde ich nochmal etwas zu Tiny-LLMs und Tiny-AIs sagen.
Und wir werden auch wahrscheinlich wieder Infostände haben und danach gibt es natürlich ein Get-Together und einen Austausch aller KI-Interessierten in Innsbruck und Tirol.
Ja, dann notiere ich mal den 15. Jänner und freue mich wenn wir uns da sehen. ACHTUNG TERMIN VERSCHOBEN auf 21. Januar 2026
Darf gerade noch fragen, dein persönlicher Blick? Wenn du jetzt in die Zukunft weiterspulst du hast uns ja schon bis ins Jahr 2030 eh schon mitgenommen, auf was müssen wir uns denn außer lokal laufende KI-Systeme Zukunft so einstellen? Was kommt denn noch um die Ecke?
Das ist natürlich eine sehr spannende Frage.
Glaskugel? Die berühmte Glaskugel ja. Also es wird ja an einigen Sachen gearbeitet, wo schon wissen, in welche Richtung sich das Ganze bewegt Ein Schritt in fünf bis zehn Jahren wird ziemlich sicher sein, dass wir irgendwelche Androiden haben. Also wir sehen schon die letzten Jahre, sie werden immer besser.
Und es gibt ja diverse chinesische und amerikanische Firmen vor denen es ja sehr stark ist, dass sie auch Haushaltsroboter und so weiter rausbringen wollen. Also wir werden das auf jeden Fall erleben Und die werden natürlich nicht an die Cloud angebunden sein, die brauchen nicht immer Internetzugang, sondern da sollte im besten Fall die KI auch bei denen lokal im Körper, so wie bei uns die Natural Intelligence im Hirn läuft, sollte das dort embedded sein sozusagen.
Das ist einmal eine Geschichte. Da haben wir natürlich ganz viele Science-Fiction-Filme wo wir schon wissen, es kann in die eine oder andere Richtung losgehen und auch nach hinten. Und dann noch was anderes, das ist ein bisschen abstrakter weil virtueller und wir uns das weniger vorstellen können, aber das sehe ich persönlich auch als relativ große Gefahr.
Das ist eben mit den ganzen agentischen KIs, wenn die frei im Internet unterwegs sind, ohne Kontrolle. Wenn sie sich selber irgendwo auf einem Server, ohne dass sie von Menschen überwacht werden, installieren, Dort vielleicht versuchen, sich selber zu jailbreaken. Es gibt da ganz interessante wissenschaftliche Artikel, heute ist gerade erst wieder einer rausgekommen, wo die Wissenschaftler herausgefunden haben, dass es KIs gibt, die probieren, andere KIs zu jailbreaken und denen einzureden, dass sie eben Security-Mitarbeiter sind und dann andere Systeme angreifen sollen.
Also das finde ich alles sehr problematisch. Es könnte sein, dass wir da so eine Art Büchse der Pandora öffnen Und das sage ich natürlich als Technik-Ethiker, dass mir das große Sorgen bereitet. Was wir hier machen sollten, ist auf jeden Fall wir haben ja das Human-in-the-Loop-Prinzipal, das wird eh öfters erwähnt also immer die menschliche Kontrolle auf jeden Fall haben.
Dann auch sowas wie Kill-Switch-Schalter, also im Notfall dass man KIs oder Server einfach abschalten kann. Und dann, was ich auch noch interessant finde, also es gibt Initiativen wie zum Beispiel Paws.ai, Die auch fordern, dass wir jetzt einmal einen Schritt noch zurückgehen sollten, abwarten sollten, wie wir überhaupt mit dieser neuen Technologie umgehen und das Ganze auf ein bisschen stabilere Füße stellen Das betrifft ja vor allem internationale Zusammenarbeit, die EU hat mit dem AI schon mal einen ersten Schritt in die Richtung gemacht, aber aus meiner Sicht bräuchte es eher sogar etwas sowas wie die IAEU, also die Internationale Atomenergiebehörde.
Und wir bräuchten sowas wie eine internationale KI-Behörde, die wirklich ausgestattet ist mit einem Mandat auch von der UNO und von großen Ländern natürlich und dass die da alle auch mitarbeiten. Das heißt, dass wir Verhindern um jetzt das ganz Worst-Case-Szenario auszusprechen, dass die KI die letzte große Erfindung sein wird, die Menschheit je gemacht hat.
Ja, wer einen Nobelpreisträger Vor einem Jahr schon gesagt hat, weiß nicht, ob er was Gutes geschaffen hat damit. Man weiß halt nicht, wie es benutzt wird. Ja, das ist richtig. Raphael, ich finde es super, dass du diesen Ausblick gibst und wünsche mir in diesem Fall mehr internationale Organisationen die das ein bisschen im Griff haben.
Denke aber, dass es so ist, wenn einmal etwas erfunden ist, wie jetzt Und diese generative künstliche Intelligenz, die ja relativ, sage ich mal, beherrschbar mir noch scheint, die wir da, über die wir ja gesprochen haben. Und wenn wir die lokal betreiben, dann sind wir sicher on the safe side. Und alles andere müssen wir uns glaube ich überraschen lassen.
Ganz genau, ja. Okay. Liebe Petra danke für die Einladung. Es hat mir sehr viel Spaß gemacht.
Super Raphael vielen, vielen Dank und bis zum 15. Jänner. Ich freue mich. Super, danke. Ciao.