[SPH] "ally", искусственный интеллект для незрячих, который поговорит, посмотрит и подскажет.

Здравствуйте все!!!
Компания Envision выпустила приложение под названием "ally".
Это ассистент для незрячих, работающий на основе языковой модели.
Интерфейс программы английский, но и языковая модель, и синтез и
распознавание речи поддерживают множество языков, в том числе Русский.
Как это работает?
Всё просто. Запускаем приложение и получаем две основные кнопки.
Одна кнопка позволяет начать голосовое общение, вторая кнопка откроет
чат, в котором можно переписываться с языковой моделью, а так же делать
и прикреплять к сообщениям фотографии.
Как сейчас принято говорить, новый и интересный опыт использования
можно получить именно при голосовом общении.
Активируем эту кнопку и модель приветствует нас женским голосом.
Мы можем болтать с ней о чём угодно, но, если мы хотим попросить
модель что-то посмотреть, просто, в процессе разговора говорим
что-нибудь вроде "Посмотри, у меня среди этих флакончиков есть
средство для мытья посуды?".
Модель сама сделает снимок с помощью задней камеры устройства и
ответит.
Ответы даются почти без задержки. Синтез речи начинает читать начало
ответа модели ещё до того, как генерация ответа закончена.
В результате, ответа не нужно ждать, ассистент отвечает сразу,
небольшая задержка возникает только при распознавании изображений.
Вероятно, есть команда, получив которую приложение делает фотографию и
отправляет её модели, а команда и инструкция по её использованию
написана в системном промте.
Кстати, о системном промте.
Вы можете настроить ассистента под себя, заполнив соответствующие поля.
При первом запуске приложение предложит войти, это можно сделать с
помощью учётки Google или Apple.
А потом, вам будет предложено заполнить форму из нескольких полей.
Первое поле, "Имя".
в системном промте будет указано, что это ваше имя и модель будет
обращаться к вам именно так.
Дальше идут 2 поля.
В одном нужно указать, что вам нравится, а в другом, что вам не
нравится.
Не надо здесь писать о музыке или кулинарных предпочтениях, это
вряд ли пригодится, здесь можно написать, что вам
нравится, а что не нравится при общении с ассистентом.
И ещё одно поле, в котором можно указать произвольную, дополнительную
информацию.
Здесь можно указать что-нибудь вроде:
"Общайся со мной только на Русском языке. Я незрячий пользователь,
поэтому, если на фотографии есть документ или этикетка, которая не
полностью помещается в кадр, подсказывай мне, как передвинуть
смартфон, чтобы сделать хороший снимок. Например выше, ниже, правее,
левее, дальше или ближе к объекту".
И так далее, можно ещё накидать пожеланий.
Помимо диалогов, ответов на вопросы и описания изображений, у модели
есть инструменты, позволяющие ей поискать погоду или новости.
Правда, модель не получает от клиентского приложения информацию о
местоположении и спрашивая о погоде говорите, в каком населённом
пункте нужно узнать погоду Если вы не назовёте населённый пункт модель
сама спросит вас об этом.
Не надо произносить названия городов в Именительном падеже, названия
можно склонять, они могут быть частью предложения или целого сообщения
с пожеланиями, просьбами и мольбами. Модель всё знает, всё понимает,
правильно заполнит запрос для погодного сервиса, получит информацию и
ответит.
Помимо погоды, у ассистента можно попросить почитать новости. У модели
есть инструменты для поиска в интернете. Уговорил модель почитать
новости с портала "Компьютерные технологии для незрячих и
слабовидящих". Модель нашла сайт и сначала стала рассказывать о
проекте в целом, что это ресурс для незрячих и слабовидящих, на
котором рассматриваются вопросы использования программных и аппаратных
средств незрячими людьми.
Но, после моей просьбы почитать именно новости с этого сайта,
рассказала о статье про Анатолия Комынина, о том, что Яндекс проводит
опрос и так далее.
Надо сказать, что нейронка не цитирует тексты дословно, а
пересказывает их своими словами.
Сейчас так делают все модели, видимо, это связано с криками
правообладателей о том, что их материалы используют для обучения
моделей, модели цитируют их контент, а авторам ничего не платят, это
пиратство и всё такое.
В общем, сейчас практически все законопослушные нейронки не цитируют,
а пересказывают текстовый контент, даже в случае с изображениями.
Поэтому, для получения точных текстов с картинок пользуемся
старыми-добрыми распознавалками, которые распознают, но не умничают.
(улыбка)
Учитывайте общепринятые правила и при заполнении формы о ваших
предпочтениях, эти данные вносятся в системный промт.
Если в промте вы потребуете что-то не толерантное, дискриминирующее
или захотите заставить ассистента вести себя как-нибудь не этично, это
не сработает, а вот ассистент резко поглупеет.
Так происходит, когда запросы пользователя или системный промт
противоречат правилам, заложенным разработчиками.
Правила от разработчиков модель не нарушит, они имеют боле высокий
приоритет по сравнению с системным промтом и пользовательскими
запросами, но, когда в инструкциях возникают прямые противоречия,
нейронка глупеет и иногда на столько, что её ответы становятся похожими
на бота на скриптах. Учитывайте это при написании своих пожеланий.
Три закона робототехники и связанные с ними парадоксы где-то
рядом. (улыбка).
Я думаю, проект очень интересный и полезный.
Как по мне, надо дать модели возможность видеть карту и местоположение
пользователя на ней, ну и возможность масштабировать и строить
маршруты. Ну и компас на карте пусть будет, да и информация с
акселерометра, ну и соответствующие инструкции в промт, поясняющие
нейронке, как и для чего всем этим пользоваться. Вместе с
возможностью фотографировать окружающую обстановку камерой классный
и разумный навигатор получится.
Кстати, в Be my eyes чат GPT очень классно работает со скриншотами
Яндекс-карт, очень крутое "Где я" получается, а если ещё и вопросы
задавать, то вообще супер! (улыбка)
Ну и ложка дёгтя, как же без неё.
В приложении сделали опцию, позволяющую перебивать ассистента, прямо
так, как это показывали на презентации чата GPT.
Если вы слышите, что ассистент говорит не то, что вам нужно, вы можете
перебить его, сказав что-нибудь вроде: Нет, мне нужно не это, а то-то
и то-то.
Вот только речь ассистента прерывает любой сигнал, попавший в микрофон
и даже собственная речь ассистента, которая попадает на микрофон из
динамиков.
Чтобы протестировать голосовое общение с ассистентом, мне пришлось
убавить громкость почти до минимума и общаться в полной тишине,
прислушиваясь к ответом. Если кашлянул или создал любой шум то всё,
ответ прерван и снова включилось распознавание речи.
Отключить это в настройках нельзя.
Результат, в хоть сколько-нибудь шумном помещении голосовое общение с
ассистентом непригодно к использованию.
Звук надо делать как можно тише, потому как, даже речь ассистента
прерывает синтез и включает распознавание речи.
Одна надежда, приложение находится на стадии бета-тестирования, в
Google Play открыт ранний доступ для ограниченного количества
желающих.
Отписал о проблеме разработчикам, правда, на русском языке, не знаю,
будут ли переводить моё сообщение.
Ссылка на приложение в Google Play:
https://play.google.com/store/apps/details?id=com.letsenvision.assistant
Помимо "ally" есть версия приложения для очков Envision glasses.
Её не тестировал, приложение доступно по ссылке:
https://play.google.com/store/apps/details?id=com.letsenvision.ally
Здравствуйте.
А вот ссылка на бету для яблочных сектантов:
https://testflight.apple.com/join/VyjHwsMA