Конференция DataConf состоялась в Барнауле в четвёртый раз. Ключевая тема встречи – применение машинного обучения для решения разнообразных бытовых, производственных и бизнес-задач на реальных примерах.
Не конкуренты
Основная цель конференции — познакомить IT-специалистов с достижениями и разработками, в которых активно применяется машинное обучение. В прошлом году DataConf посетило более 70 участников, в этот раз — около 150, из них примерно треть — разработчики, в том числе представители мировых компаний в Барнауле. В роли спикеров выступают практикующие разработчики из ведущих российских и международных ИТ-компаний: SberDevices, Yandex, «ЦФТ», «Промсофт», DBA, Estesis. Присутствуют и студенты-айтишники, которые таким образом выбирают наиболее интересное для себя направление: кто-то будет специализироваться на компьютерном зрении, кто-то — распознавать речь или работать с видео.
— Выбирая спикеров для конференции, мы прежде всего смотрим на лидеров российского рынка из области искусственного интеллекта. Что интересно, раньше эксперты прилетали из других городов, а сейчас барнаульцы работают в «Сбере», «Яндексе», «ЦФТ» и являются спикерами мероприятия, – отмечает Николай Белоцкий, соучредитель компании Estesis, один из организаторов конференции. – Одна из наших целей – развитие в Барнауле сообщества, связанного с искусственным интеллектом. Кроме нашей компании, в Барнауле это DBA, CSort, Integra Sourses. Мы не конкуренты, а коллеги. Мир искусственного интеллекта довольно обширный: компьютерное зрение, анализ аудиосигналов, анализ временных рядов – разных направлений очень много, на этом рынке всем хватит места.
Николай Белоцкий подчеркивает, что для укрепления сообщества хотелось бы не ограничиваться ежегодной конференцией. Поэтому скоро планируют проводить митапы на регулярной основе. IT-специалисты ценят такие очные встречи.
– Мероприятия в офлайн-формате хороши тем, что можно просто пообщаться, узнать о новых трендах, обсудить какие-то технологические моменты вне тематик докладов, – поясняет Николай. – Например, на одной из конференций несколько лет назад я встретил жителя Барнаула, который работает на австралийскую компанию, занимающуюся искусственным интеллектом в сфере речевых технологий, было интересно узнать, как они это делают. Такой обмен опытом очень важен для уже состоявшихся разработчиков.
Непрерывное развитие
— Когда происходит рост штата сотрудников или рост качества управления самими процессами, появляется необходимость автоматизации, — говорит Яков Филин, гендиректор IT-компании Estesis. — Рутины со временем становится все больше, от неё надо избавляться.
Но мало создать одну модель, по которой будет работать система. С ростом компании и с увеличением объема данных эту модель нужно развивать, и здесь возникает ряд специфических проблем. О своем опыте их решения и рассказывает соучредитель барнаульской фирмы. Слушатели интересуются: а как понять, что модель деградирует?
— На старте вы могли не охватить весь ряд задач, и теперь вам надо расширяться. Вы понимаете, что поступают другие данные или же у пользователей возросли требования к вашей модели, и они недовольны. Это не значит, что у вас некачественная модель, просто нужно, чтобы она не стояла на месте и непрерывно развивалась, — считает Яков Филин.
Темы развития существующих моделей касаются и другие эксперты. Так, Иван Перминов из «Центра финансовых технологий» разъясняет, как модернизируют систему распознавания документов в банках. По задумке, из фотографии с паспортом или справкой программа должна вычленять текст и расшифровать его. Основная сложность в распознавании границ документа, ведь на фото может быть своеобразный фон, мешающий программе, например, другие бумаги с текстом. Есть несколько способов научить алгоритм справляться с этой задачей. Представитель «ЦФТ» поделился одним из вариантов.
В поиске
Илья Ильяшенко, deep learning инженер в «Яндексе», на двух предыдущих конференциях DataConf был слушателем, а теперь сам выступает спикером.
— У меня не очень хардкорный доклад, он скорее общепояснительный. Я хочу пройтись по всем стадиям веб-поиска «Яндекса», показать, что происходит от момента, когда пользователь задает запрос в поисковую систему, до выдачи результата, по каким путям проходит запрос, – говорит Илья. – Поисковая база исчисляется сотнями миллиардов документов, сайтов, и нам нужно по одному запросу пользователя найти тот самый документ, или хотя бы топ-10, который точно решит его задачу. Поэтому поиск – это очень иерархически сложная система: на нижних стадиях мы используем простые и быстрые методы, а постепенно отсеивая количество документов, мы задействуем более сложные вычислительные методы. На высоких стадиях, когда у нас уже немного документов, мы можем использовать трансформерные нейронные сети, которые понимают смысл написанного, а не ориентируются только на ключевые слова.
Специалист уверяет: поиск уже давно понимает нас так же, как другие люди, последние лет пять он точно не работает лишь по ключевым словам. Хотя этот механизм тоже используется.
– На начальном этапе происходит расширение запроса: он разбивается на смысловые составные части, подбираются синонимы, чтобы найти как можно больше документов. А потом уже учитывается пользовательское поведение, характеристики запроса, характеристики веб-сайтов, на которых лежат документы. На основе этих трёх источников у нас строится несколько тысяч факторов, по которым наша система машинного обучения может отобрать лучшие документы по данному запросу.
Организаторами конференции DataConf–2023 выступают министерство экономического развития Алтайского края и Алтайский центр кластерного развития совместно с Barnaul Data Science Community.
До 7 сентября продлится приём заявок на конкурс «Лучшие проекты информатизации на Алтае» имени Виталия Берегового. В конкурсе могут принять участие разработчики мобильных приложений, программно-аппаратных комплексов, информационных систем, а также иных цифровых технологий.