OpenAI finalmente lanzó Sora, su avanzado generador de texto a video, poniéndolo a disposición del público. Así como puedes generar miles de palabras enviando un mensaje rápido en ChatGPT, ahora puedes generar videos enviando mensajes en Sora. Sin embargo, su funcionalidad va más allá: también puedes cargar imágenes para darles vida. Imagínate subir una foto antigua de tu bisabuelo y verlo caminar, correr o realizar otras actividades. Ese es el nivel de innovación del que estamos hablando aquí. Dicho esto, quizás te preguntes: ¿en qué se diferencia Sora de los LLM (modelos de lenguajes grandes) como GPT-4 que impulsan ChatGPT, la tecnología detrás de Sora? ¿En qué está entrenado? Y lo que es más importante, ¿todos pueden acceder a Sora? Respondemos a todas estas preguntas a continuación: sigue leyendo.

Lea también: Se espera que el iPhone 18 Pro cueste mucho más, la gran razón del aumento de precio es…

¿En qué se diferencia Sora de los grandes modelos de lenguaje basados ​​en texto?

Primero, Sora es un modelo de IA de texto a video, mientras que GPT es un modelo de lenguaje grande. A pesar de sus diferencias, las entradas que aceptan son algo similares, ya que GPT-4 es multimodal: puede procesar texto, imágenes e incluso vídeo como entradas.

Por ejemplo, con Sora, puedes crear un vídeo de la cresta de una montaña enviando un mensaje detallado. Puede especificar si las montañas deben estar nevadas, si brilla el sol y otros detalles. Además, puedes darle vida a una imagen existente enviándola a Sora. En esencia, Sora procesa texto, imágenes o vídeo como entradas y produce vídeo como salida.

Por el contrario, los modelos GPT solo producen salidas de texto, incluso si envía entradas de texto o imágenes. Esta diferencia en la producción los diferencia.

Quizás te preguntes: ¿Pueden ChatGPT o Google Gemini generar imágenes? ¿No funcionan con GPT-4 y Gemini, respectivamente? La respuesta es no. Se basan en modelos como DALL-E 3 (OpenAI) e Imagen 3 (Google) para la generación de texto a imagen.

Sora también tiene la capacidad de estirar videos, ya sea hacia adelante o hacia atrás en el tiempo, agregando otra dimensión a sus capacidades.

Lea también: iOS 18.2 lanzado esta semana: los usuarios de iPhone obtendrán potentes funciones de inteligencia artificial en…

¿Cómo fue entrenado Sora?

OpenAI afirma que Sora fue entrenado con videos e imágenes de diferentes duraciones, resoluciones y relaciones de aspecto. La compañía dice que utiliza una arquitectura Transformer, que procesa parches espaciotemporales de códecs de imagen y vídeo latentes.

Desde un punto de vista técnico, existe una diferencia significativa de enfoque. Si bien los modelos de texto a video como Sora se entrenan de manera diferente, los modelos de lenguaje grande como GPT-4o u otros modelos de inteligencia artificial de compañías como Meta’s Llama generalmente se entrenan en lo que llamamos tokens.

Sin embargo, en lugar de chips, OpenAI utiliza un método llamado parches visuales para entrenar a Sora. Básicamente, divide los vídeos en parches comprimiéndolos en un espacio latente de dimensiones inferiores. Luego, la representación se descompone en parches espaciotemporales para su posterior procesamiento.

¿Para quién está disponible Sora?

Actualmente, los usuarios gratuitos no pueden acceder a Sora. Esto significa que deberá comprar una suscripción, ya sea la suscripción OpenAI Plus o la suscripción OpenAI Pro.

La membresía Plus, que cuesta $2.000 en India, permite el acceso a 50 generaciones de vídeos de Sora al mes. Si eliges la cuenta Pro, que cuesta $200, puedes crear hasta 500 generaciones de videos rápidos. Sin embargo, elegir una resolución más alta reduce el número de generaciones disponibles. Si es paciente y está dispuesto a utilizar el modo de generación más lenta, podrá disfrutar de generaciones de vídeo ilimitadas.

Es importante tener en cuenta que existe una limitación de resolución y los videos solo pueden durar hasta 20 segundos. Están disponibles en proporciones de aspecto de pantalla ancha, vertical o cuadrada.

Para más detalles, los usuarios de OpenAI Plus (o ChatGPT Plus) pueden crear videos con una resolución de 480p, con un límite de 50 videos. Si bien es posible 720p, los videos resultantes serán menos numerosos.

Dicho esto, debido a la abrumadora demanda, OpenAI actualmente no permite nuevos registros para Sora. El director ejecutivo de OpenAI, Sam Altman, confirmó que los registros se detuvieron temporalmente, pero se reanudarán una vez que la demanda se estabilice. Aseguró a los usuarios que OpenAI está haciendo todo lo posible para abordar estos problemas lo más rápido posible. Sin embargo, es posible que todos tarden algún tiempo en obtener acceso a Sora. Si no tienes acceso pronto, se debe a la gran demanda.

Lea también: Es probable que el iPhone 17 Air sea 2 mm más delgado que el iPhone 16 Pro: vea más detalles aquí

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *