Kako funkcionira prepoznavanje glasa na pametnim telefonima?

Glasovni asistenti danas su neizostavan dio naše svakodnevice, ali razumijemo li zaista mehanizme koji stoje iza njih? U Hrvatskoj, s 3,25 milijuna korisnika interneta i 4,7 milijuna korisnika javno dostupne telefonske usluge u mobilnim mrežama krajem 2024. godine, prepoznavanje glasa na pametnim telefonima postalo je jedna od najčešće korištenih, ali i najviše propitkivanih tehnologija. Prema podacima HAKOM-a [Izvor: HAKOM, 2025.], visoka penetracija mobilnih uređaja stvorila je masovnu bazu za interakciju s umjetnom inteligencijom. No, kako se točno zvučni val našeg glasa pretvara u konkretnu akciju na ekranu i jesmo li pritom sigurni od prisluškivanja?
Što je prepoznavanje glasa i kako tehnički funkcionira?
Prepoznavanje glasa na pametnim telefonima je proces u kojem ugrađeni mikrofoni i umjetna inteligencija pretvaraju zvučne valove ljudskog govora u digitalni tekst. Ovaj sustav u stvarnom vremenu analizira namjeru korisnika i izvršava zadane naredbe, od postavljanja alarma do upravljanja pametnim domom.
Tehnologija koja stoji iza ovog naizgled jednostavnog procesa zapravo je složen ekosustav hardvera i softvera. Da bi vaš pametni telefon razumio što želite, on mora proći kroz tri ključne faze obrade audio signala. Zanimljivo je da se ova arhitektura u posljednjih nekoliko godina drastično promijenila, prebacujući teret obrade s udaljenih servera direktno na vaš uređaj u džepu.
Faza 1: Detekcija ključne riječi (Wake-word)
Sve počinje stanjem pripravnosti. Vaš telefon koristi minijaturni, izolirani čip s mikro-memorijom (često manjom od 50 KB) koji troši manje od 1 milivata energije. Njegov jedini zadatak je prepoznati specifičan akustični uzorak, takozvanu ključnu riječ (npr. "Hej Google" ili "Siri"). Dok se ta riječ ne izgovori, uređaj ne snima niti šalje podatke.
Faza 2: Pretvaranje govora u tekst (Speech-to-Text)
Kada uređaj detektira ključnu riječ, započinje proces mapiranja zvuka. Zvučni valovi se digitaliziraju i razlažu na foneme, osnovne jedinice zvuka. Akustični modeli pomoću dubokog učenja te foneme uspoređuju s ogromnim bazama podataka kako bi ih pretvorili u točan tekstualni zapis. Tijekom 2025. i 2026. godine, brzina ove obrade pala je na ispod 250 milisekundi.
Faza 3: Obrada prirodnog jezika (NLP)
Tekstualni zapis sam po sebi stroju ne znači ništa. Ovdje nastupa NLP (Natural Language Processing), grana umjetne inteligencije koja analizira sintaksu i semantiku rečenice kako bi shvatila kontekst. Algoritam prepoznaje namjeru (intent) i entitete (entities) – na primjer, u naredbi "Kakvo je vrijeme u Zagrebu?", namjera je vremenska prognoza, a entitet je grad Zagreb.
- Buđenje: Čekanje na specifičnu "wake-word" naredbu bez aktivnog snimanja.
- Transkripcija: Pretvaranje audio signala u sirovi tekst (STT).
- Analiza: Korištenje NLP-a za razumijevanje konteksta i namjere.
- Izvršenje: Pokretanje aplikacije, pretraživanje weba ili upravljanje pametnim uređajem.
Zašto je prepoznavanje glasa na pametnim telefonima postalo sigurnije?
Prepoznavanje glasa na pametnim telefonima postalo je znatno sigurnije zbog snažnog prelaska na lokalnu obradu podataka (on-device processing). Moderni procesori omogućuju da vaš glas nikada ne napusti uređaj, čime se eliminira rizik masovnog prisluškivanja u oblaku.
Jedan od najvećih strahova korisnika u Hrvatskoj i svijetu jest mit da nas telefoni "stalno prisluškuju" kako bi nam servirali ciljane oglase. Međutim, arhitektura modernih pametnih telefona to demantira. Iako je mikrofon tehnički uvijek aktivan kako bi čuo ključnu riječ, on ne snima vaše privatne razgovore.
Lokalna obrada naspram oblaka (Cloud processing)
Zahvaljujući specijaliziranim čipovima poput Appleovog Neural Enginea ili Googleovog Tensora, većina glasovnih naredbi danas se obrađuje isključivo na samom uređaju. Prema smjernicama CARNet-a za kibernetičku sigurnost [Izvor: CARNet, 2025.], ovakav pristup radikalno smanjuje mogućnost presretanja podataka ("man-in-the-middle" napadi) jer audiozapis vašeg glasa uopće ne putuje internetom do udaljenih servera u SAD-u ili Irskoj.
Hrvatski jezik i AI: Kako pametni telefoni uče padeže?
Iako je hrvatski jezik sa svojih sedam padeža i brojnim dijalektima predstavljao noćnu moru za programere, prepoznavanje glasa na pametnim telefonima sada besprijekorno podržava i naš jezik. Napredni AI modeli konačno su razbili tu jezičnu barijeru.
Godinama su korisnici u Hrvatskoj morali s pametnim telefonima komunicirati na engleskom ili njemačkom jeziku. Hrvatski IT stručnjaci iz tvrtki poput Combisa i ASEE Solutions Hrvatska često su isticali kako je razvoj glasovnih asistenata za naš jezik iznimno kompleksan zbog bogate morfologije i slobodnog reda riječi u rečenici.
Povijesne prepreke i novi pomaci
Prekretnica se dogodila u listopadu 2024. godine kada je Microsoftov AI asistent, Copilot, službeno "progovorio" hrvatski. Prema izvještajima tehnološkog portala Bug.hr [Izvor: Bug.hr, 2025.], Copilot sada nudi puno prepoznavanje glasa i govorni audio izlaz na hrvatskom jeziku. Moderni modularni AI pristupi omogućuju strojevima da razumiju kontekst bez potrebe da korisnici prilagođavaju svoj govor ili izbjegavaju dijalekte.
Zakonodavni okvir i AI: Što donose EU i hrvatski zakoni?
Korištenje prepoznavanja glasa na pametnim telefonima danas je strogo regulirano. EU Akt o umjetnoj inteligenciji zabranjuje prepoznavanje emocija, dok hrvatski Kazneni zakon uvodi stroge kazne za dovođenje u opasnost putem AI sustava.
S razvojem tehnologije, regulativa je morala uhvatiti korak. Od 2. veljače 2025. godine, Europska unija počela je u fazama provoditi prvi sveobuhvatni zakon o umjetnoj inteligenciji na svijetu. Prema podacima Europske komisije [Izvor: Europska komisija, 2025.], Akt strogo zabranjuje korištenje prepoznavanja glasa za biometrijsku kategorizaciju osjetljivih podataka poput rase, političkih uvjerenja ili seksualne orijentacije.
Izmjene Kaznenog zakona u Hrvatskoj
Hrvatska je krajem 2025. godine otišla korak dalje. U Narodnim novinama objavljene su izmjene Kaznenog zakona koje uvode potpuno novo kazneno djelo: "Dovođenje u opasnost života i imovine sustavom umjetne inteligencije". Kazne za nehaj ili namjerno izazivanje štete kreću se od 6 mjeseci do 15 godina zatvora. Ovo se direktno odnosi na autonomne i glasovno upravljane pametne sustave.
Kritike struke na novi zakon
Međutim, zakon nije prošao bez kritika. Ive Botunac, potpredsjednik Hrvatske udruge za umjetnu inteligenciju (CRO AI), upozorio je na pravne praznine. "Zakon je previše općenit. Ako sustav upravljan glasom u pametnom domu zakaže i izazove požar, tko je kriv? Korisnik iz Splita, hrvatski distributer opreme ili strani programer koji je pisao algoritam za prepoznavanje glasa?" istaknuo je Botunac u javnoj raspravi.
Koliko košta pametni dom upravljan glasom u Hrvatskoj?
Cijene uređaja za pametni dom, koji se integriraju s prepoznavanjem glasa na pametnim telefonima, kreću se od 49 EUR do 349 EUR. Hrvatski potrošači mogu birati između osnovnih pametnih zvučnika i naprednih audio sustava s AI podrškom.
Za građane koji žele proširiti mogućnosti glasovnog prepoznavanja sa svog pametnog telefona na cijeli dom, domaće tržište nudi pregršt opcija. U trgovinama poput Ronisa, HGSPOT-a i TIA Mobitela, ponuda je u 2026. godini bogatija nego ikad.
- Osnovni modeli: Idealni za početnike, služe za jednostavne naredbe poput paljenja svjetla ili navijanja alarma.
- Srednji modeli: Često dolaze s ekranima, boljim zvučnicima i naprednijom integracijom sa sustavima grijanja.
- Premium modeli: Fokusirani na audiofile, nude vrhunski zvuk uz punu AI integraciju.
| Kategorija uređaja | Popularni modeli (2026.) | Prosječna cijena (EUR) | Ključne značajke |
|---|---|---|---|
| Osnovni pametni zvučnici | Amazon Echo Pop | 49 € | Kompaktan dizajn, osnovno upravljanje domom |
| Srednji pametni zasloni/zvučnici | Echo Dot, Google Nest | 69 € - 119 € | Bolji zvuk, vizualni odgovori na upite, smart home hub |
| Premium audio AI zvučnici | WiiM Sound, Sonos One | Do 349 € | Hi-Res audio, napredni usmjereni mikrofoni, multiroom |
Korištenje ovih uređaja značajno poboljšava pristupačnost. Primjerice, spajanjem Googleovog TalkBacka sa Samsungovim glasovnim asistentom, slabovidne osobe u Hrvatskoj danas mogu u potpunosti navigirati svojim pametnim telefonima i kućanstvima koristeći isključivo glasovne naredbe.
Često postavljana pitanja
Kako pametni telefon zna kada mu se obraćam?+
Vaš telefon koristi poseban, energetski štedljiv čip koji neprestano osluškuje samo jednu specifičnu ključnu riječ (poput 'Hej Siri'). Tek kada prepozna taj akustični uzorak, uređaj se 'budi' i počinje obrađivati vašu naredbu.
Snima li moj pametni telefon privatne razgovore?+
Ne. Iako je mikrofon aktivan kako bi detektirao ključnu riječ, uređaj ne snima niti šalje podatke na internet dok se ta riječ ne izgovori. Većina modernih telefona danas obrade obavlja lokalno, štiteći vašu privatnost.
Što donosi novi hrvatski Kazneni zakon u vezi AI-ja?+
Krajem 2025. godine uveden je novi članak zakona koji kažnjava 'Dovođenje u opasnost života i imovine sustavom umjetne inteligencije'. Kazne za zloupotrebu ili nehaj s autonomnim sustavima iznose od 6 mjeseci do 15 godina zatvora.
Mogu li s pametnim telefonom razgovarati na hrvatskom jeziku?+
Da, od početka 2025. godine napredni AI asistenti poput Microsoft Copilota u potpunosti podržavaju hrvatski jezik, uključujući prepoznavanje naših padeža, dijalekata i govorni audio izlaz.
Izvori i reference
- HAKOM(Institucija)
- CARNet(Edukacija/Tech)
- Bug.hr(Medij)
- Europska komisija Digital(EU Institucija)
Povezani članci
Kako funkcionira eSIM tehnologija u pametnim telefonima
Kako funkcioniraju litij-ionske baterije u pametnim telefonima: Vodič za 2026.
Kako funkcionira LiDAR senzor na pametnim telefonima i zašto mijenja način fotografiranja
Kako funkcioniraju optički kabeli za brzi internet i zašto su budućnost povezivosti
Kako funkcionira end-to-end enkripcija u aplikacijama za dopisivanjeO ovom članku
Sadržaj je sastavljen uz pomoć umjetne inteligencije i pregledan kroz uredničku kontrolu kvalitete prije objave. Sve činjenice, brojke i izvori provjereni su prema referentnim hrvatskim institucijama i međunarodnim izvorima navedenim u sekciji Izvori i reference.
Pronašli ste grešku ili imate dopune? Javite nam se na info@kako.hr.
