Что известно о DeepSeek
DeepSeek — стартап, основанный и принадлежащий китайскому инвестиционному фонду High-Flyer. Компания занимается разработкой технологий искусственного интеллекта (ИИ) по образцу чат-бота ChatGPT от OpenAI или Gemini от Google. И DeepSeek, и High-Flyer управляются китайским миллиардером Лян Вэньфэном.
Издание WIRED называет DeepSeek «нестандартным игроком» китайской индустрии ИИ. Компания начинала свой путь как Fire-Flyer, исследовательское подразделение по глубокому обучению при High-Flyer. Годами High-Flyer накапливала графические процессоры и строила суперкомпьютеры Fire-Flyer для анализа финансовых данных. К 2022 году фонд собрал кластер из 10 тысяч высокопроизводительных графических процессоров Nvidia A100, которые используются для создания и запуска систем ИИ. Вскоре после этого США запретили продавать Китаю эти чипы.
В 2023 году Лян Вэньфэн, имеющий степень магистра по компьютерным наукам, решил использовать ресурсы High-Flyer для создания DeepSeek, которая разрабатывала бы передовые модели ИИ с амбициями достичь общего искусственного интеллекта. Своё решение он объяснял научным интересом, а не желанием получить коммерческую выгоду.
В Китае стартап известен тем, что привлекает молодых и талантливых исследователей ИИ из ведущих университетов. DeepSeek также является одной из немногих китайских ИИ-компаний, которая не получает финансирование от технологических гигантов, таких как Baidu, Alibaba или ByteDance.
За последние несколько лет DeepSeek выпустила несколько крупных языковых моделей — технологией, лежащей в основе чат-ботов ИИ. 10 января компания выпустила бесплатный чат-бот DeepSeek-V3 — большую языковую модель с открытым исходным кодом, которая содержит 671 млрд параметров и обучена на 14,8 трлн токенов.
Затраты на модель, как утверждают разработчики, составили около 5,6 млн долларов. Для сравнения — OpenAI потратила на обучение GPT-4 78 млн долларов, а Gemini Ultra обошлась Google в 191 млн долларов.
Компания также заявляет, что DeepSeek-V3 превзошла GPT-4о от OpenAI, Llama 3 от Meta и Claude 3.5 Sonnet от Anthropic в задачах программирования и обработки текста.
Неделю назад компания выпустила ещё одну модель ИИ — чат-бот DeepSeek R1. По словам разработчиков, R1 демонстрирует «впечатляющие» способности к рассуждению и не уступает по возможностям модели o1 от OpenAI, но стоит при этом в разы меньше.
Как и o1, R1 использует метод «цепочки мыслей», при котором модель проходит через несколько промежуточных логических шагов, прежде чем прийти к окончательному ответу. DeepSeek создал R1 на базе V3, задействовав обучение с подкреплением, которое вознаграждало модель за правильный ответ и за решение проблем таким образом, который обрисовывал её «мышление».
R1 получил высокую оценку от исследователей и экспертов за его способность решать сложные задачи рассуждения, особенно в математике и кодировании. R1 похвалил даже руководитель OpenAI Сэм Альтман, назвав её «впечатляющей моделью» с учётом её способностей и стоимости создания.
Количество загрузок приложения DeepSeek резко выросло с момента запуска R1 и оно сейчас возглавляет рейтинги в магазине AppStore.
Чем DeepSeek отличается от других ИИ
Одна из ключевых особенностей DeepSeek — полностью открытый код. В отличие от ведущих американских компаний, занимающихся ИИ (OpenAI, Anthropic и Google DeepMind), которые держат свои исследования почти полностью в тайне, DeepSeek сделала исходный код для всех своих моделей и подробное техническое объяснение программы бесплатными для просмотра, загрузки и изменения. Таким образом, любой человек из любой точки мира может использовать, адаптировать и даже улучшать программу.
Из-за экспортных ограничений США на поставку передовых чипов ИИ DeepSeek пришлось придумать более эффективные методы обучения ИИ-моделей, чтобы конкурировать с OpenAI или Meta. Компания оптимизировала архитектуру своих моделей, усовершенствов коммуникации между чипами, уменьшив объем данных для экономии памяти и применив метод Mix-of-Models.
DeepSeek также добилась успеха в разработке Multi-head Latent Attention (MLA) и Mixture-of-Experts — технологий, снижающих потребность в вычислительных ресурсах и делающих модели более экономичными. Благодаря этому последняя ИИ-модель DeepSeek оказалась настолько эффективной, что для обучения понадобилась лишь десятая часть вычислительной мощности, необходимой для Llama 3.1 от Meta, согласно данным исследовательского института Epoch AI.
Среди недостатков чат-бота DeepSeek называют цензурирование ответов на некоторые темы, связанные с китайскими властями. Журналист New York Times, тестировавший модель DeepSeek, обратил внимание, что чат-бот отказался отвечать на вопросы о протестах на площади Тяньаньмэнь, жестоко подавленных правительством Китая, объяснив это тем, что такая информация «выходит за рамки» его текущих возможностей. На вопросы о минусах Коммунистической партии КНР чат-бот написал, что «в настоящее время испытывает большой трафик» и не может дать ответ, хотя, по словам журналиста, спокойно ответил на вопрос по другой теме несколько секунд спустя.
ChatGPT, к примеру, на вопрос о событиях на площади Тяньаньмэнь, дал детальный ответ, рассказав о предыстории массовых протестов, предполагаемом количестве жертв и последствиях произошедшего, уточняет Associated Press.
Как отреагировали рынки акций
Последние запуски DeepSeek вызвали панику среди инвесторов . Традиционно считалось, что компаниям, занимающимся ИИ, нужны дорогие передовые компьютерные чипы, например, те, что производит Nvidia, для обучения систем. Это оправдывало огромные расходы крупнейших американских технологических компаний, таких как Alphabet и Meta Platforms, отмечает Wall Street Journal.
Но у DeepSeek не было передовых чипов, а её модели, тем не менее, соответствуют ведущим конкурентам в США по определённым показателям, которые оценивают возможности ИИ. Кроме того, DeepSeek выпустила R1 с открытым исходным кодом, что значит, что другие компании смогут использовать подход DeepSeek и потенциально создать другие дешёвые альтернативы ИИ, поясняет WSJ.
На фоне появления последней моделей DeepSeek акции Nvidia упали на 17% в течение торгового дня 27 января. Рыночная капитализация компании из-за падения сократилась более чем на 600 млрд долларов — это самые большие потери для компании в истории фондового рынка, понесённые в один день.
Nvidia стала одним из крупнейших бенефициаров в буме ИИ, поскольку её чипы почти исключительно обеспечивали обучение и во многих случаях работу самых мощных существующих моделей ИИ. Nvidia и инвесторы компании сделали ставку на то, что новые поколения её передовых чипов будут использоваться для разработки самых мощных моделей ИИ. Однако успех DeepSeek показывает, что лидерство Nvidia в разработке чипов ИИ может быть не таким большим и важным для разработки новых моделей ИИ, пишет WSJ.
Акции других компаний, связанных с энергетикой, также упали в понедельник из-за опасений инвесторов, что новой технологии потребуется меньше энергии для работы, а это в свою очередь приведёт к снижению спроса со стороны технологического сектора. Так, акции GE Vernova, производящей ветряные и газовые турбины, упали на 21%, а акции электрогенератора Vistra — на 28%.
Успех DeepSeek в создании модели ИИ может изменить баланс среди игроков на мировом рынке, и это уже воодушевило некоторые страны за пределами США, пишет WSJ. Представители правительства Франции заявили, что пример DeepSeek показывает, что «гибкие» компании с эффективными методами все ещё могут конкурировать в гонке ИИ, имея меньше средств или ограниченный доступ к чипам. Это означает, что возможности догнать американских технологических гигантов есть не только у Китая, но и у ЕС и других стран мира.