Шепот о модульном будущем ИИ
ДомДом > Новости > Шепот о модульном будущем ИИ

Шепот о модульном будущем ИИ

Aug 08, 2023

Джеймс Сомерс

Однажды в конце декабря я загрузил на свой ноутбук программу под названием Whisper.cpp, надеясь использовать ее для расшифровки интервью, которое я дал. Я загрузил ему аудиофайл, и каждые несколько секунд он воспроизводил одну или две строки удивительно точной расшифровки, записывая именно то, что было сказано, с точностью, которую я никогда раньше не видел. По мере того, как очереди накапливались, я чувствовал, что мой компьютер становится все жарче. Это был один из немногих случаев за последнее время, когда мой ноутбук действительно вычислил что-то сложное — в основном я использую его только для просмотра веб-страниц, просмотра телевизора и письма. Теперь здесь работал передовой искусственный интеллект.

Несмотря на то, что Whisper.cpp является одной из самых сложных программ, которые когда-либо запускались на моем ноутбуке, она также является одной из самых простых. Если бы вы показали исходный код исследователям ИИ с первых дней существования распознавания речи, они могли бы рассмеяться от недоверия или заплакать — это было бы все равно, что рассказать физику-ядерщику, что процесс достижения холодного синтеза можно записать на салфетке. Whisper.cpp — это очищенный интеллект. Это редкость для современного программного обеспечения, поскольку оно практически не имеет зависимостей — другими словами, оно работает без помощи других программ. Вместо этого это десять тысяч строк автономного кода, большая часть которого выполняет не более чем довольно сложную арифметику. Его написал за пять дней Георгий Герганов, болгарский программист, который, по его собственному признанию, почти ничего не знает о распознавании речи. Герганов адаптировал его из программы под названием Whisper, выпущенной в сентябре OpenAI, той же организацией, которая стоит за ChatGPT и DALL-E. Whisper расшифровывает речь более чем на девяноста языках. В некоторых из них программное обеспечение способно на сверхчеловеческую производительность — то есть оно действительно может анализировать то, что кто-то говорит, лучше, чем это может сделать человек.

Что необычного в Whisper, так это то, что OpenAI открыла его исходный код, опубликовав не только код, но и подробное описание его архитектуры. Они также включали важнейшие «веса модели»: гигантский файл чисел, определяющий синаптическую силу каждого соединения в нейронной сети программного обеспечения. При этом OpenAI позволил любому, включая такого любителя, как Герганов, модифицировать программу. Герганов преобразовал Whisper в C++, широко поддерживаемый язык программирования, чтобы его было проще загружать и запускать практически на любом устройстве. Это звучит как логистическая деталь, но на самом деле это признак более масштабных перемен. До недавнего времени лучшие в мире ИИ, такие как Whisper, были исключительной прерогативой крупных технологических компаний, которые их разработали. Они существовали за кулисами, незаметно влияя на результаты поиска, рекомендации, чат-помощников и тому подобное. Если посторонним было разрешено использовать их напрямую, их использование измерялось и контролировалось.

За последние несколько лет появилось еще несколько ИИ с открытым исходным кодом, но большинство из них были разработаны в результате собственных проектов реверс-инжиниринга. LeelaZero, шахматный движок, представляет собой краудсорсинговую версию AlphaZero от DeepMind, лучшего в мире компьютерного игрока; поскольку DeepMind не опубликовала веса модели AlphaZero, LeelaZero пришлось обучать с нуля отдельными пользователями — стратегия, которая была работоспособной только потому, что программа могла учиться, играя в шахматы против самой себя. Аналогично, Stable Diffusion, который создает изображения из описаний, является чрезвычайно популярным клоном DALL-E от OpenAI и Imagen от Google, но обученным на общедоступных данных. Whisper может быть первым ИИ в этом классе, который был просто подарён публике. В эпоху облачного программного обеспечения, когда все наши программы по сути арендуются у компаний, которые их производят, меня несколько раздражает то, что теперь, когда я скачал Whisper.cpp, никто не может его у меня отобрать — даже не Герганов. Его маленькая программа превратила мой ноутбук из устройства, обращающегося к искусственному интеллекту, в нечто вроде интеллектуальной машины.

Было время, когда исследователи считали, что распознавание речи на человеческом уровне может быть «сложным для искусственного интеллекта» — их способ описания проблемы, которая была настолько сложной, что она могла оказаться невозможной только тогда, когда компьютеры обладали общим интеллектом. Идея заключалась в том, что в устной речи было достаточно двусмысленности, и единственный способ ее проанализировать — это реально понять, что имели в виду говорящие. На прошлой неделе я услышал по радио что-то, что для компьютера могло бы звучать так: «Можете ли вы поднять Форд?» Но мой мозг, зная контекст разговора, без проблем решил: «Может ли Украина себе это позволить». Проблемы смысла и контекста привели к тому, что на протяжении десятилетий распознавание речи считалось мерилом для области ИИ в целом. Единственный способ понять речь, считалось, — это по-настоящему понять ее.