ChatGPT научился понимать голосовые команды и работать с изображениями

OpenAI расширила варианты взаимодействия с ChatGPT. Новая версия чат-бота теперь принимает в качестве промтов (подсказок) не только текст, но также изображения и голосовые команды. Для коммерческих пользователей новые возможности станут доступны в ближайшие две недели, а остальным придётся какое-то время подождать.

Источник изображения: The Verge

Общение голосом с ChatGPT в чём-то похоже на разговор с любым голосовым помощником, но, по утверждению OpenAI, качество ответов значительно выше благодаря улучшенной базовой технологии. Пользователь нажимает кнопку и произносит вопрос, ChatGPT преобразует его в текст и передаёт в большую языковую модель, получает ответ, преобразует его обратно в речь и произносит ответ вслух.

Новые возможности ChatGPT опираются на большую языковую модель Whisper, которая выполняет значительную часть работы по преобразованию речи в текст и обратно. По утверждению OpenAI, новая модель может генерировать «человеческий голос из текста и образца речи длиной в несколько секунд». Пока доступно пять вариантов голоса ChatGPT, но OpenAI видит в этой модели гораздо больший потенциал.

Возможность создать синтезированный голос любого человека, опираясь всего на несколько секунд его речи, даёт широкое поле деятельности для киберпреступников, признаёт OpenAI в анонсе новых функций: «Это новые риски, такие как возможность злоумышленников выдать себя за общественных деятелей или совершить мошенничество». По утверждению компании, модель недоступна для широкого использования именно по этой причине: OpenAI планирует ограничить модель конкретными вариантами использования и партнёрскими соглашениями.

Что касается запроса в ChatGPT при помощи изображения, пользователю достаточно сфотографировать или нарисовать предмет своего интереса и отправить боту. В процессе общения можно применять текстовые или голосовые подсказки, чтобы уточнить запрос или ограничить область поиска.

Очевидно, что использование изображений в качестве подсказки для чат-бота также имеет свои потенциальные проблемы. В первую очередь это касается запроса о личности человека на фотографии, хотя OpenAI заявляет, что ограничила «способность ChatGPT анализировать и делать прямые заявления о людях» как по соображениям точности, так и по соображениям конфиденциальности.

Спустя почти год после первого запуска ChatGPT OpenAI продолжает расширять границы применения и использования своего чат-бота, пытаясь избежать связанных с ним проблем и недоработок. В частности, компания намеренно ограничивает возможности своих новых ИИ-моделей. Но такой подход не будет работать вечно. По мере того, как все больше людей используют голосовое управление и поиск изображений, а ChatGPT становится мультимодальным и полезным виртуальным помощником, удерживать ИИ в рамках будет все труднее и труднее.

Источник

Рупор Про25.09.2023

0 206 Время чтения: 1 минута

Добавить комментарий Отменить ответ

Дивиденды АФК Система 2023: размер и дата выплаты, прогноз по акциям

Creative выпустит первые в мире серийные TWS-наушники с MEMS-динамиками

Dell уволила тысячи сотрудников из-за спада продаж ПК

Капитализация SpaceX выросла до $137 млрд

«Индивидуальный терапевтический подход»: российский учёный — об исследовании серотонина для лечения депрессии

Samsung обогнала Apple и вернула звание крупнейшего поставщика смартфонов в феврале

Лицензия на открытость. Разбираемся в ограничениях на использование опенсорса

Кровавые бои, строительство базы и улучшенный движок: надёжный инсайдер поделился новыми подробностями Assassin’s Creed Codename: Red

Законодатели предложили правительству РФ идентифицировать пользователей компьютерных игр

Криптоскептик Питер Шифф готовится к выпуску коллекции NFT

Плавучие кристаллы объяснили задержку охлаждения массивных белых карликов. Внутри карликов могут действовать конвекционные потоки

Уступка права требования по потребительскому кредиту третьим лицам: что это такое?

Twitch за платные подписки подарит три месяца доступа к Microsoft PC Game Pass

Прибыль Meta✴ подскочила в три раза — компания впервые в истории выплатит дивиденды по акциям

Инди-разработчик призвал спиратить свою игру вместо того, чтобы смотреть её прохождение на YouTube

Tesla будет ежегодно тратить на развитие по $8 млрд и даже больше

В ООН бьют тревогу: мир накрывает цунами электронного мусора, а в землю закапываются миллиарды долларов

Ремастер Turok 3: Shadow of Oblivion от Nightdive выйдет позже обещанного — раскрыта новая дата релиза

Китай создаст суперкомпьютерный интернет для решения задач от ИИ до космоса

«Теперь это буквально Forza Horizon»: Ubisoft объявила дату выхода The Crew Motorfest и показала геймплейный трейлер игры

Статьи по теме

Добавить комментарий Отменить ответ