A arquitetura genérica de um sistema capaz de produzir, processar e reproduzir conteúdos 360º é semelhante à que está representada na figura 2.
​
​
​
​
​
​
​
​
​
​
Tal como seria de esperar, esta arquitetura é mais complexa do que a correspondente às imagens tradicionais 2D (planas).
Ao contrário destas, as imagens 360º (ou com outras formatos que não sejam planos) são capturadas e juntas (”costuradas”) – stitching - a 3D: têm coordenadas esféricas. Isto constitui uma adversidade, pois, no presente, não existem codificadores nem descodificadores capazes de lidar com dados que não traduzam coisas planas.
Por conseguinte, existe a necessidade de fazer o mapeamento (mapping) das imagens, isto é, efetuar algum tipo de projeção da imagem 3D para o plano. Após este processo, as imagens, que até este passo estavam em formato PCM (pulsecode modulation), encontram-se em condições de serem codificadas, transmitidas por um canal e descodificadas.
De seguida, faz-se um mapeamento inverso, para que se possa passar novamente para o formato 3D, e rendering para a posterior reprodução (display).
​
​
​
​
​