Fishlake-scripts.ru

Образование и уроки
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Термины машинного обучения

Словарь терминов машинного обучения

Материал из MachineLearning.

В данной статье приводится рекомендуемый перевод тех или иных устоявшихся англоязычных терминов в области машинного обучения. Однако даже несмотря на наличие русскоязычного перевода термина при написании работ рекомендуется в скобках также приводить англоязычный вариант.

Термины с «уверенным» русскоязычным переводом

Deep learning — глубокое или глубинное обучение

Shallow learning — малослойное обучение (а соответствующие сети малослойные)

Representation Learning, learning representations — обучение представлений

Handcrafted features — вручную построенные признаки, инженерия признаков, «инженерный подход» к построению признаков

Feature learning — обучение признаков

Training и learning — синонимы, необходимо переводить как «обучение» и то и другое, но строго не как «тренировка»

Explaining Away — эффект оправдания, эффект редукции причины

Word embedding — (векторное) представление слова, погружение слова в линейное векторное пространство

Deep belief networks — глубокая сеть доверия

Deep neural network — глубокая нейронная сеть

Stacked Auto-Encoders — вложенные автокодировщики

Denoising Auto-Encoders — шумоподавляющие (помехоустойчивые) автокодировщики

Contractive Auto-Encoders — сжимающие автокодировщики

Support Vector Machine — метод (не машина!) опорных векторов

Kernel Machine — ядровой метод / реализация / модификация в зависимости от контекста

MCMC — методы Монте-Карло с Марковскими цепями

Stochastic Maximum Likelihood — алгоритм стохастической максимизации правдоподобия

Semisupervised embedding — представление по обучению с неполной (частичной) разметкой

Nearest neighbor graph — граф ближайших соседей

Local Coordinate Coding, LCC — алгоритм локального кодирования координат

Leveraging the modeled tangent spaces — использование моделей касательного пространства

Independent Subspace Analysis — анализ независимых подпространств

Smoothed n-gram models — сглаженные n-граммные модели

Pooling (в свёрточных сетях) — агрегирование, операция объединения

Softmax function — функция мягкого максимума, софтмакс

Similarity function — функция близости (сходства)

Rectified linear unit (ReLU) — усеченное линейное преобразование

Cumulative density function (CDF) — функция распределения

Probability density function (PDF) — плотность вероятности

Parameterized transformation — параметризованное преобразование

Credit assignment path (CAP) — путь передачи ответственности (цепочка преобразований от входа к выходу)

Credit assignment — присвоение коэффициентов доверия

Policy gradient — градиентный спуск по стратегиям

Fully connected — полносвязная

Reward Signal — сигнал вознаграждения (подкрепления)

Training set — обучающая выборка

Validation set — проверочная выборка

Good Old-Fashioned Artificial Intelligence — символический искусственный интеллект

Generalization performance/ability — обобщающая способность

Spiking neuron — импульсный нейрон

Time-Delay Neural Network — нейронная сеть с временной задержкой

Weight decay — сокращение веса

Constant error carousel — карусель константной ошибки

Long Short-Term Memory (LSTM) — Долгая краткосрочная память

Термины, пока не имеющие хорошего перевода:

Dropout — дропаут? выбивание? вычёркивание?

Batches — группы, серии, блоки (как часть примеров выборки), пакеты, пачки (как часть коллекции текстовых документов)

Noisecontrastive estimation — отделение от шума? конрастивное оценивание?

Сontrastive divergence — «контрастирование», «сравнение расхождения», «сопоставительное отклонение»?

Predictive Sparse Decomposition — Предсказательная разреженная декомпозиция?

Spike-and-Slab RBMs — можно переводить как спайковый (распределение, больцмановская машина, и пр.) предполагая, что по контексту станет ясно, что имеется в виду характерный вид регуляризатора

Manifold Tangent Classifier — Касательный классификатор на базе многообразий?

Denoising score matching

mPoT модель (mean-product of Student’s T-distributions model) —

Parametric mapping (в контексте Learning a parametric mapping based on a neighborhood graph) —

Deconvolutional networks (изобретение Зейлера) —

Техблог Александра Куракина

Машинное обучение, нейронные сети

Страницы

вторник, 14 августа 2018 г.

Термины машинного обучения

В двух словах для чего нужно машинное обучение (с учителем)? Системы машинного обучения обучаются тому как комбинировать ввод, чтобы произвести полезные предсказания на ранее не известных данных.

Фундаментальная терминология машинного обучения

Метки (labels)

Метка — это вещь, которую мы предсказываем — значение y в простой линейной регрессии. Метка может быть будущей ценой на бензин, вид животного показанного на картинке, значение аудио клипа или чем угодно.

Свойства (features)

Свойство — это входная переменная — x переменная в простой линейной регрессии. Простой проект машинного обучения может использовать единственное свойство, в то время как сложный проект может использовать миллионы свойств, определенных как:

Например в определении спама, свойства могут включать следующие:

  • Слова в тексте электронного письма
  • Адрес отправителя
  • Время суток, когда письмо было отправлено
  • Письмо содержит какую-то конкретную фразу, например «пушистый кот»

Примеры (examples)

Пример — это отдельный экземпляр данных. Примеры можно разделить на 2 категории:

  • Примеры с метками (labeled examples)
  • Примеры без меток (unlabeled examples)

Пример с меткой включает в себя и свойство (или свойства), и метку. Таким образом:

Примеры с метками используются для тренировки моделей. В примере определения спама в качестве примеров с метками будут служить конкретные письма, которые пользователи явно отметили как спам или как не спам.

Пример без метки включает в себя и свойство (или свойства), но не метку. Таким образом:

Натренировав нашу модель на примерах с метками, мы используем эту модель чтобы предсказать метки в примерах без меток. В определении спама, примеры без меток это новые письма, которые пользователь еще не отмечал как спам или не спам.

Модели (models)

Модель определяет взаимоотношение между свойствами и меткой. Например, модель определения спама может связывать некоторые свойства определенно с меткой спам. Модель имеет две фазы существования:

  • Тренировка — обозначает создание или обучение модели. То есть мы показываем модели примеры с метками и включаем модель постепенно обучаться взаимоотношениям между свойствами и меткой.
  • Вывод — означает применение натренированной модели к примерам без меток. То есть мы используем натренированную модель делать предположения (y’). Например, в ходе вывода, мы можем предсказать относится ли новое письмо к спаму или нет.
Читать еще:  Модели машинного обучения

Регрессия и классификация

Модель регрессии предсказывает значения, имеющие значения в каком-либо диапазоне. Например, модели регрессии предсказывают ответы на такие вопросы как:

  • Какова цена дома в Подмосковье?
  • Какова вероятность того, что пользователь кликнет на рекламу?

Модель классификации предсказывает значения, входящие в определенный набор отдельных(дискретных) значений. Например, модели классификации предсказывают ответы на такие вопросы как:

  • Относится ли письмо к спаму или нет?
  • Это изображение собаки, кошки или хомяка?

Словарь: чем различаются машинное и глубокое обучение

В честь выхода обновлённой карты искусственного интеллекта Rusbase рассказывает об основных понятиях в сфере ИИ. В «словаре искусственного интеллекта» — ИИ, машинное и глубокое обучение и взаимосвязь между тремя терминами.

Рынок искусственного интеллекта продолжает расти быстрее многих других — по данным аналитического агентства Tractica, в 2018 году мировой объем софтверного ИИ составил $9,5 млрд, а к 2025 году он вырастет в 12 раз до $118,6 млрд. Эта оценка учитывает 315 различных варианта применения ИИ в 30 индустриях, среди которых реклама, телекоммуникации, здравоохранение, ритейл и многие другие.

Согласно прогнозам IDC, в 2019 году мировые затраты на ИИ-системы составят $35,8 млрд, на 44% больше, чем в прошлом году. Самыми востребованными на рынке будут решения для автоматизирования клиентского сервиса, рекомендательные системы для повышения продаж и продукты для предотвращения угроз. Gartner стабильно помещает ИИ в свой топ технологий и технологических трендов.

Что такое искусственный интеллект (Artificial intelligence)

Сложности в определении искусственного интеллекта связаны с неоднозначностью понятий «интеллект» и «думать». В наиболее распространенном значении «искусственный интеллект» можно описать как способность машины выполнять когнитивные функции, которые свойственны человеку — умение рассуждать, обучаться и совершенствоваться на основе предыдущего опыта, решать определенные задачи, взаимодействовать с окружающей средой.

В качестве научной дисциплины ИИ появился ещё в 1956 благодаря профессору Джону МакКарти, который собрал группу ученых для работы над проектом по созданию «умных» машин, способных выполнять присущие человеку функции. Ранние разработки в области ИИ были направлены в основном на решение абстрактных логических и математических задач.

Однако уже в 1962 программа на основе ИИ обыграла профессионального игрока в шашки, а в 1965 система Dendral, созданная в Стэнфорде, смогла определить химические структуры с помощью анализа масс-спектрограмм. Ранние успехи на этом поприще мотивировали ученых продолжать изучение ИИ.

Различают три вида ИИ в зависимости от его возможностей: ограниченный (способен решать только конкретный тип задач), общий (может обучаться любым навыкам и решать любые задачи) и сверхразумный (во всех сферах жизни превосходит человеческий). Единственный вид интеллекта, который пока удалось создать — ограниченный. Система, которая позволяет вам транскрибировать аудио в тексты, не может одновременно заказать пиццу или сыграть в шахматы — для каждой из этих задач необходима разработка отдельных алгоритмов.

  • На данный момент все технологии, например, компьютерное зрение, обработка естественного языка, распознавание изображений и даже автономные автомобили, относятся к ограниченному ИИ (последние являются комбинацией нескольких «ограниченных интеллектов»). Известные примеры ограниченного ИИ — программа Deep Blue от IBM, которая в 1996 году обыграла в шахматы Гарри Каспарова, и программа AlphaGo от Google DeepMind, выигравшая в 2016 году в Го у корейского го-профессионала Ли Седоля.

Понятие «искусственный интеллект» само по себе ничего не говорит о методах, позволяющих машинам выполнять когнитивные функции. Один из таких методов — машинное обучение, которое начало активно развиваться в 1980-х гг, когда стало понятно, что более ранние методы не работают для обработки естественного языка или распознавания картинок.

Что такое машинное обучение (Machine learning)

Машинное обучение — это класс методов для решения задач искусственного интеллекта. Алгоритмы машинного обучения распознают паттерны в больших массивах данных и используют их для самообучения. Каждый новый массив данных позволяет алгоритмам совершенствоваться и адаптироваться в соответствии с полученной информацией, что позволяет постоянно улучшать точность рекомендаций и прогнозов.

Методы машинного обучения имитируют человеческое обучение. Представьте ребенка, который учится читать. Процесс обучения начинается не с зазубривания всех правил грамматики и орфографии: сначала ребенок читает простые, детские книги, затем переходит к более сложной литературе, из которой он получает новые знания и усваивает новые правила. По похожему принципу работает машинное обучение.

С развитием алгоритмов стало понятно, что некоторые задачи, например, распознавание речи или текста, компьютер решить всё ещё не может. В результате возникла идея нейронных сетей, которые имитируют не просто процесс обучения человека, но само устройство человеческого мозга.

Искусственные нейронные сети представляют из себя систему связанных между собой простых процессоров (искусственных нейронов), обменивающихся друг с другом сигналами (нервными импульсами). Нейронная сеть имитирует центральную нервную систему и может решать более сложные задачи машинного обучения — прогнозирование временных рядов, распознавание речи, компьютерное зрение и другие.

Читать еще:  Ютуб яндекс обучение

Машинное обучение можно разделить на три группы:

1. Контролируемое машинное обучение, или обучение с учителем (supervised machine learning) — для обучения алгоритмов используются labeled data (размеченные, или маркированные, данные). В контролируемом машинном обучении входные данные (X) и выходные данные (Y) известны. На предоставленном датасете из данных X и Y алгоритм обучается, чтобы затем предсказать значение Y на новом массиве данных.

  • Прогнозирование цены на недвижимость в зависимости от процентной ставки, времени года и других факторов;
  • Прогнозирование спроса на продукт и оптимизация цены на него;
  • Прогнозирования оттока клиентов;
  • Предотвращение разных видов мошенничества с банковскими картами.

2. Неконтролируемое машинное обучение, или обучение без учителя (unsupervised machine learning) — алгоритмы обучаются на unlabeled data (немаркированные, или неразмеченные, данные). В этом случае алгоритм получает только сырые входные данные, которые не требуют первичной обработки. Алгоритм анализирует датасет и самостоятельно проводит кластеризацию данных, разделяя их на группы со схожими показателями.

  • Сегментация клиентов для проведения более эффективной маркетинговой кампании;
  • Сегментация работников по вероятности профессионального выгорания;
  • Рекомендации фильмов группе людей со схожими интересами;
  • Рекомендации статей исходя из анализа прочитанных материалов.

3. Обучение с подкреплением (reinforcement learning) — алгоритм обучается самостоятельно (на сырых данных), взаимодействуя с незнакомой средой и получая фидбек на свои действия. Основная задача алгоритма — методом проб и ошибок выбрать те тактики, которые позволят максимизировать общую выгоду агента.

Популярная тестовая среда для обучения с подкреплением — компьютерные игры, работающие по такому же принципу. Например, в арканоидах игрок получает очки, когда разбивает блоки, и теряет жизни, если дает шарику упасть. В процессе обучения с подкреплением алгоритм машинного обучения научится всегда отбивать шарик и даже сможет выбрать оптимальную стратегию, которая позволит быстрее всего выбить все блоки.

  • Максимизация прибыли инвестиционного портфеля;
  • Обучение промышленных и складских роботов;
  • Оптимизация загруженности сетей электроснабжения в зависимости от спроса;
  • Оптимизация вождения беспилотных автомобилей.

4. Частичное обучение, или обучение с частичным привлечением учителя (semi-supervised learning) — алгоритмы обучаются одновременно на labeled и unlabeled data, причём количество неразмеченных данных обычно сильно превышает количество маркированных. У этого метода есть несколько преимуществ. Во-первых, маркировка огромного массива данных — долгий и дорогостоящий процесс. Во-вторых, маркировка всех данных в массиве может привести к появлению в модели систематической ошибки, вызванной человеческим фактором. Включение в модель unlabeled data одновременно снижает стоимость обучения алгоритма и позволяет сделать модель более точной.

  • Речевая аналитика;
  • Классификация веб-страниц и веб-контента;
  • Генетическое секвенирование.

Что такое глубокое, или глубинное, обучение (Deep learning)

Deep learning — набор методов машинного обучения, в которых используются нейронные сети с большим количеством нейронов и слоев для извлечения признаков. В многослойной нейронной сети помимо входного (принимающего данные) и выходного (выдающего результат) слоев есть один или несколько скрытых слоев вычислительных нейронов для обработки данных. При этом каждый последующий слой получает на входе выходные данные предыдущего.

С помощью глубокого обучения можно анализировать огромные массивы данных, прикладывая меньше человеческих усилий для их первичной обработки. Deep learning позволяет получать более точные результаты, чем другие методы машинного обучения.

Принцип глубокого обучения хорошо описан в блоге Oracle на живом примере. «Когда вам показывают изображение лошади, вы понимаете, что это лошадь, даже если никогда раньше не видели именно эту картинку. Не имеет значения, лежит ли лошадь на диване или одета как бегемот. Вы узнаете ее, потому что помните множество определяющих ее признаков: форму головы, количество и расположение ног и другие. Глубокое обучение тоже умеет распознавать эти признаки.»

Это особенно важно для таких технологий, как беспилотные автомобили, которым необходимо «знать», что именно их окружает — люди, машины, велосипеды, дорожные знаки, бордюры и другие элементы. Традиционные методы машинного обучения не могут решить все задачи, необходимые для реализации этой технологии.

Глубокое обучение используют для решения задач, связанных с распознаванием лиц, речи, текста, фото и видео. Несколько примеров таких задач:

  • Диагностика заболеваний по медицинским сканам;
  • Обнаружение продуктов с дефектами на производственной линии;
  • Генерация подписей к фотографиями;
  • Анализ восприятия логотипа и бренда компании для повышения эффективности маркетинга;
  • Перевод с одного языка на другой.

Machine Learning

Machine learning — множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных.

Что такое Machine Learning

Общий термин «Machine Learning» или «машинное обучение» обозначает множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных [1]. Решение вычисляется не по четкой формуле, а по установленной зависимости результатов от конкретного набора признаков и их значений. Например, если каждый день в течении недели земля покрыта снегом и температура воздуха существенно ниже нуля, то вероятнее всего, наступила зима. Поэтому машинное обучение применяется для диагностики, прогнозирования, распознавания и принятия решений в различных прикладных сферах: от медицины до банковской деятельности.

Типы и суть Machine Learning

Выделяют 2 типа машинного обучения [1]:

  1. Индуктивное или по прецедентам, которое основано на выявлении эмпирических закономерностей во входных данных;
  2. Дедуктивное, которое предполагает формализацию знаний экспертов и их перенос в цифровую форму в виде базы знаний.
Читать еще:  Php mysql обучение

Дедуктивный тип принято относить к области экспертных систем, поэтому общий термин «машинное обучение» означает обучение по прецедентам. Прецеденты или обучающая выборка – это наборы входных объектов и соответствующих им результатов. При этом не существует четкой формулы, которая аналитически описывает зависимость между результатами и входами. Например, какая погода будет завтра, если на протяжении недели дни были морозные, солнечные, с низкой влажностью воздуха, без ветра и осадков? При этом следует учесть еще множество параметров: географические координаты, рельеф местности, движение теплых и холодных фронтов воздуха и пр. Необходимо построить алгоритм, который выдаст достаточно точный результат для любого возможного входа. Точность результатов регулируется оценочным функционалом качества. Таким образом, решение формируется эмпирически, на основе анализа накопленного опыта. При этом обучаемая система должна быть способна к обобщению – адекватному отклику на данные, выходящие за пределы имеющейся обучающей выборки. На практике входные данные могут быть неполными, неточными и разнородными. Поэтому существует множество методов машинного обучения [2]. Можно сказать, что машинное обучение реализует подход Case Based Reasoning (CBR) — метод решения проблем рассуждением по аналогии, путем предположения на основе подобных случаев (прецедентов).

Суть и смысл машинного обучения (Machine Learning)

Методы Machine Learning

Существует множество методов машинного обучения. Мы перечислим самые популярные, оставив их подробную классификацию специализированным ресурсам [1, 2, 3]. Выделяют 2 вида классического Machine Learning:

  1. С учителем (supervised learning), когда необходимо найти функциональную зависимость результатов от входов и построить алгоритм, на входе принимающий описание объекта и на выходе выдающий ответ. Функционал качества, как правило, определяется через среднюю ошибку ответов алгоритма по всем объектам выборки. К обучению с учителем относятся задачи классификации, регрессии, ранжирования и прогнозирования.
  2. Без учителя (unsupervised learning), когда ответы не задаются, и нужно искать зависимости между объектами. Сюда входят задачи кластеризации, поиска ассоциативных правил, фильтрации выбросов, построения доверительной области, сокращения размерности и заполнения пропущенных значений.

К неклассическим, но весьма популярным методам относят обучение с подкреплением, в частности, генетические алгоритмы, и искусственные нейронные сети. В качестве входных объектов выступают пары «ситуация, принятое решение», а ответами являются значения функционала качества, который характеризует правильность принятых решений (реакцию среды). Эти методы успешно применяются для формирования инвестиционных стратегий, автоматического управления технологическими процессами, самообучения роботов и других подобных задач [2].

Ниже на рисунке показана классификация наиболее часто используемых методов Machine Learning [3].

Классификация методов Machine Learning [3]

Средства реализации Machine Learning

Сегодня чаще всего для создания программ машинного обучения используются языки R, Python, Scala и Julia [4]. Они поддерживаются многими интегрированными средами разработки, в частности, R-Studio, R-Brain, Visual Studio, Eclipse, PyCharm, Spyder, IntelliJ IDEA, Jupyter Notebooks, Juno и др. [4]. На наших практических курсах мы научим вас успешной работе с этими инструментами, чтобы потом вы могли самостоятельно формировать наборы входных данных, строить эффективные алгоритмы для решения прикладных задач своей области: от нефтегазовой промышленности до биржевой аналитики. Выбирайте свой обучающий интенсив и приходите к нам на занятия!

Словарь машинного обучения: знакомство с МО

Изучите эти термины и добавьте строчку “экспертиза в машинном обучении” в свое резюме.

Основы:

Искусственный интеллект (ИИ): способность компьютера имитировать мыслительный процесс и поведение человека.

Прикладной ИИ (встречаются также понятия Вертикальный ИИ или Узкий ИИ): “умные” системы, отвечающие конкретным задачам, вроде торговли акциями или персонализации рекламы.

Общий ИИ (также известный как Сильный ИИ или Абсолютный ИИ): системы и устройства, способные выполнять любые задачи, аналогично живому человеку.

Машинное обучение (МО): аспект искусственного интеллекта, позволяющий компьютеру обучаться без необходимости непосредственного программирования.

Немного подробнее:

Большие данные: огромные массивы информации, требующие инновационных форм обработки данных, чтобы отслеживать тренды и тенденции, принимать точные решения и автоматизировать процессы.

Глубинное обучение: аспект машинного обучения, разработанный по образу и подобию структуры человеческого мозга, который использует искусственные нейронные сети для обработки данных. Примерно так же функционируют нейроны человеческого мозга. Для этого необходимо обеспечивать нейронную сеть огромным количеством данных, чтобы «тренировать» систему четко и точно классифицировать данные.

Обработка естественного языка (NLP): область ИИ, сконцентрированная на программировании компьютеров для обработки и распознавания человеческой речи. Таким образом, компьютеры могут выполнять языковые задачи вроде перевода, синтаксического анализа и распознавания языка.

На уровень выше:

Дополненная реальность (AR): цифровая информация (изображения и/или), накладываемая на физическое изображение или интегрированная в окружающую среду.

Виртуальная реальность (VR): сгенерированная компьютером симуляция трехмерного изображения или пространства, с которой можно взаимодействовать приближенным к реальности способом при помощи специального электронного оборудования.

Больше о Google:

Google Brain: проект Google, направленный на глубокое исследование искусственного интеллекта.

Waymo: проект Google по разработке автопилотируемого автомобиля.

Project Magenta: исследовательский проект Google, направленный на применение машинного обучения в создании музыки и других произведений искусства.

Загрузите наш информационный листок в формате PDF здесь и ознакомьтесь с нашим полным Руководством по машинному обучению для маркетологов.

Ссылка на основную публикацию
Adblock
detector