Мировая экономика

Thursday, December 06, 2018

Бени Ганц создает свою независимую партию

בני גנץ השלים את החתמת 130 המייסדים על טופסי המפלגה החדשה שיקים. היא תשמש אותן בבחירות הבאות, בין אם עצמאית ובין אם כחלק ממערך במרכז-שמאל

Бывший начальник генштаба ЦАХАЛа Бени Ганц приступило к формированию собственной политической партии. Как сообщает политический обозреватель Амит Сегаль, под уставным документом подписались 130 активистов, ставших основателями партии. Факт подписания до сих пор хранился в секрете.

https://twitter.com/amit_segal/status/1070741870827986944
https://www.vesty.co.il/articles/0,7340,L-5421263,00.html

Ниже есть продолжение.

130 человек уже, не афишируя об этом, подписали документ о создании новой партии, в главе которой будет находиться генерал-лейтенант запаса, бывший начальник Генерального штаба Бени Ганц...

... создании собственной независимой партии, которая на следующих выборах сможет выступить либо отдельным списком, либо в альянсе с одной из существующих партий.

На данный момент имя новой партии Бени Ганца не публикуется. Опросы общественного мнения предрекают новой партии не менее 26 мандатов.

Формально партия еще не создана. По всей видимости, официальное объявление о ее создании будет заявлено после установления срока предстоящих выборов в кнесет.

...опрос Мины Цемах, сделанный по заказу газеты «Едиот ахронот», показал, что в случае, если Бени Ганц примет решение принять участие в выборах в кнессет от партии «Авода», эта партия сможет получить 24 мандата. Без него «Авода» с трудом набирает 15 мандатов.

https://cursorinfo.co.il/all-news/beni-gants-sozdaet-svoyu-nezavisimuyu-partiyu/

Bloomberg: ЕС объявляет войну доллару и переходит на расчеты в евро (English, Russian)

* EU to propose energy contracts denominated in euros by default
* EU Commission to present proposals on euro’s role this week

https://www.bloomberg.com/news/articles/2018-12-03/here-s-how-europe-plans-to-challenge-the-dollar-in-world-markets

См. линк выше, чтобы прочитать статью полностью.

БУНТ ЕВРОПЫ
ЕС объявляет войну доллару и переходит на расчеты в евро

Пока мы увлеченно рассуждаем о том, что американцы используют Украину как инструмент в борьбе с «Северным потоком – 2», Европа заготовила своему гегемону удар под дых. Агентство Bloomberg рассказало, какие меры в ближайшее время собирается предпринимать Евросоюз для перевода расчетов с долларов на евро...

Ниже есть продолжение.

Причина столь радикальных перемен указана недвусмысленно: непредсказуемый союзник США. Прямо так и написано в программе, оказавшейся в распоряжении агентства. А еще так: «Недавние экстерриториальные односторонние действия третьих стран, например, в случае повторных санкций в отношении Ирана, а также недавние вызовы международному праву и торговле, основанные на правилах, являются сигналом о пробуждении экономического и валютного суверенитета Европы».

Похоже, новый мировой порядок трещит по швам...Что особенно приятно, программой предусматривается переход на расчеты в евро за энергоносители как мера борьбы с «непомерной привилегией» американской валюты. А это имеет прямое отношение к нашей торговле с Европой нефтью и газом...

При этом мы должны отдавать отчет в том, что за озвученными планами и программами совсем необязательно последуют дела. Мы живем в такое время, когда намерения обретают осязаемую силу, торговля, а иногда и битва за их отмену становится реальностью раньше, чем эта самая реальность наступила.

Европа не хочет бунтовать против Америки — ее заставляют обстоятельства...

https://www.facebook.com/photo.php?fbid=1975471072532985

Введение в Машинное обучение

https://www.youtube.com/watch?v=TFIfMxyfARo&t=2m12s до примерно 5 минуты

Существует два подхода для решения задач в математике ^1.. Первым подход мы может условно назвать "древнегреческим", второй - "древневавилонским". Первый подход говорит, мы сначала строим "теорию", затем применяем эту "теорию" для решения множества практических задач. Второй подход состоит в том, что нас обучают "рецептам решения" широкого круга практических задач. Когда нам нужно решить новую задачу, мы просто находим похожую задачу, среди тех, которые мы решали и воспроизводим ту же последовательностей действий.

Для нетерпеливых быстрый переход к сути статьи тут.

Ниже есть продолжение.

***
Вся наука и техника XX века была построена на "древнегреческим" подходе. Фундаментальная наука делала открытие - чаше всего, находила математическое описание ("теорию" в виде "мат. модели") некого явления. К примеру, уравнения Максвелла для электромагнитного поля, на его базе был затем построен телеграф.

***
Преподавание физики и математики в школе и в ВУЗе также было построено на "древнегреческим" подходе. Рассказывалась "теория", а затем решались задачки. В скобках замечу, что студенты для подготовки к экзамену нашли другой подход. Они решают задачи "похожие" на те, что будут на экзамене, это могут задачи с домашних заданий, работ или контрольных или, с экзаменов прошлых лет. Затем на экзамене они вспоминали решение похожей задачи, решённой ими (или кем-то другим, но они разобрали это решение и поняли), и воспроизводили его на экзамене, заменяя числа на другие и делая вычисление самостоятельно. Для меня такой подход стал реальным лайфхаком. Хотя я знаю и таких, для которых такой подход является естественным. ^2.

Преподаватели стараются бороться с этим несколькими способами, первый - придумывать новые классы задач, которых раньше не было (что очень тяжело), второй-комбинировать разные задачу в одну (нужно уметь это распознать, что может быть не просто), третий - при решение известного типа задач нужно использовать какой-то хитрый приём. Сам по себе такой трюк, обычно, простой, просто он раньше не встречался или встречался в другом контексте. Человек, который глубоко понимает материал, легко до него догадается, тот, кто "набил руку", но не разобрался с материалам, для него это может оказаться не подъёмным.

***
Как известно, "школьная геометрия" является, по-сути, Евклидовой геометрией. Несколько упрощая, можно сказать, что школьный курс геометрии является (попыткой ^3.) пересказа избранных мест "Начал" Евклида. Изложение в "Началах" ведётся строго дедуктивно ^4.. Каждая книга начинается с определений. В первой книге за определениями идут аксиомы и постулаты. Затем следуют предложения, которые делятся на задачи (в которых нужно что-то построить) и теоремы (в которых нужно что-то доказать). "Начала" оказали огромное влияние на развитие математики вплоть до Новейшего времени, высокий интеллектуальный уровень произведения и его фундаментальная значимость для науки в целом отмечается ключевыми учёными современности. Для своего времени и вплоть до (примерно) XIX века "Начала" считались образцом логического изложения математической теории. Структура трудов Декарта, Ньютона и даже Спинозы строилась по образцу "Начал". Однако уже в античные времена были критически отмечены некоторые недостатки евклидовского труда — например, Архимед обосновал необходимость добавить аксиому Архимеда-Евдокса" ^3.

Т.е., опять-таки, сначала "теория"/, потом её применение на практике. Другой пример такого подхода - астрономия. В Древней Греции^5. была птолемеевская теория эпициклов в сочетании с теорией вложенных сфер. На основании этой терии, вплоть до эпохи Возрождения, рассчитывали движение планет, Луны и Солнца. Это то, что я выше назвал "древнегреческим подходом". При этом, уже в Средние века чувствовалась необходимость усовершенствования приведенных Птолемеем таблиц движения планет, потому что всякое новое наблюдение свидетельствовало о недостаточности теории эпициклов: вместо того чтобы служить подкреплением теории, оно противоречило ей. Но у астрономов даже не зарождалось мысли о необходимости отказаться от теории, и поэтому они придумывали только некоторые поправки к ней, пытаясь добавлять новые эпициклы к прежним. ^6.

Другой пример-свет. Свет пытались объяснить с помощью двух различных "представлений" - как частицу-корпускулу и как волну. Для описания того, как ведёт себя свет в одних опытах было удобно представлять свет как "корпускулу , в других как волну. Разработка квантовой физики привела к осознанию невозможности использования любой классического описания. Подробнее см. корпускулярно-волновой дуализм.

Из примеров "плохих" "теорий" я могу привести флогистон (см. также тут) и теплород. Теория теплорода объясняла на тот момент многие известные в то время тепловые явления и была признана большинством ученых. С точки зрения принципа "бритвы Оккама", в отсутствие теории теплового движения молекул, теория теплорода, при всей её наивности, являлась вполне научной и полноценной. В частности, была вполне опровержима (что является обязательным свойством научных теорий), что, собственно, с ней и произошло.

***
"Вавилонский подход" обучения был принят в некоторых физ.мат. школах в СССР. Не преподавали никакой теории. Давали сразу решать задачки. Если ученик не мог решить, ему давали подсказку, затем ещё и ещё, если и это не помогало, показывали решение задачи. "Набив руку", перерешав много разнотипных задач, ученик "улавливал суть" теории. Она не была сформулирована в явном виде. Ученик просто понимал как решать задачи. Естественно ему давали сложные задачи, для решения которых нужно было очень глубокое понимание материала, но ученик, с помощью учителя "открывал" теорию сам в процессе решения задач. Т.е. он занимался обобщением (или индукцией ^4.) по конкретных примерам-задачам он строил "модель". В Древнем Вавилоне обучение было похожим. Там, однако, не строили "теории", а просто было множество разных "рецептов" для решение задач. К примеру, не смотря на то, что в Древнем Вавилоне умели решать квадратные уравнения (и даже отдельные типы кубических) общей "формулы" или, хотя бы, её словесного описания, у них, по всей видимости, не было.

***

Рассмотрим, теперь, типичную задачу машинного обучения. Компьютеру показывает фотографию. Он должен сказать, на картинке котик или не котик.

Стандартным подходом будет написать программу, в котором прописать явным образом некоторый алгоритм для решения этой задачи. Подобно тому, как существует алгоритм, к примеру, сортировки массива. Были попытки написать нечто вроде такого: у кота есть некий набор характерных его признаков. Например, усы, уши, хвост. Мы будем их искать. Т.е. сначала мы выделим набор признаков (feature), которые будут указывать, что это кот. Чтобы сказать, есть ли на картинке, к примеру, уши, мы будем искать одно из нескольких комбинаций линий, соединение которых нам укажет на наличие уха кота на картинке. По-мимо признаков (feature) мы зашьём некоторый набор правил (rule-based), выполнение которых нам скажет есть кот на картинке или нет.

Небольшое лирическое отступление, ещё в начале 2010-ых не было ясно какой подход перспективней вообще для работы с Big Data. Программа, основанная на rule-based engine (по-сути, набора if-ов) или подход, основанный на статистике (машинное обучение). Сегодня, консенсусное мнение состоит в том, что rule-based engine является тупиком.

Какие основные трудности на этом пути? Во-первых, нужно вручную определить признаки. Если мы поменяем задачу и решим, скажем, находить собачек на картинке, нам нужно будет придумывать новые feature, такой подход плохо масштабируем (doesn't scale well). Во-вторых, сам алгоритм будет не устойчивым (not robust) к малым изменения на картинке, таким как освещению, повороту камеру и т.п. В-третьих, и это главный недостаток, высокая вариативность - коты на картинках бывают в разных, порой неожиданных, позах, иногда сливаются с фоном и т.п. Множество правил, которые бы покрывало все эти случаи до сих пор не было найдено, всегда находится новый случай, которые не распознается. Т.е. построить мат. описание того, что значит, на фотографии изображён кот ("объяснить что такое кот компьютеру") этим способом не удалось. "Древнегреческий подход" не сработал.

Как мы можем применить "древневавилонский подход" (или индуктивное умозаключение ^4.)? Для этого нам надо, чтобы нас научили на конкретных примерах (data-driven approach) когда на картинке кот и когда нет. Мы же должны будем найти некоторую закономерность, "построить модель", когда в увиденных нами примерах кот или не кот. Используя найденную "модель", мы можем попытаться посмотрев на незнакомую картинку ответить есть там кот или нет.

Концептуально, мы делаем то же самое, что с выводом, что "все лебеди, которых мы видели белые, и, следовательно, все лебеди белые". Наблюдая за миром, нам попадались только белые лебеди. На основании этого наблюдение мы сделали обобщение (индуктивный вывод ^4.), что все лебеди белые. При этом, как оказалось впоследствии, наше обобщение было не правомерно, существуют и чёрные лебеди. Вместе с тем, добавляя некоторые ограничения, например, где именно мы наблюдаем лебедя (его основной ареал обитания Австралия и Океания, в середине XIX в. был завезён в Новую Зеландия. В Европе и Северной Америке его иногда содержат в парках и заповедниках), мы можем сказать нечто вроде "вот этот лебедь находится в Европе на воле. С большой вероятностью, это белый лебедь".

Один из самых простых способов решение задачи о распознавании котика заключается в следующем: сначала нам показывают прецеденты, примеры с прошлого, когда мы знаем, вот на этой фотографии точно есть котик, а на этой фотографии - точно нет. Всё, что нам показали, мы просто запомним. Затем, наша "модель" начнёт "сдавать экзамен": её будут спрашивать, а вот на этой картинке есть котик? А на этой? А вот на этой есть или нет? Здесь мы делаем обобщение о свойствах всех изображений на основе некоторого числа наблюдений (чуть по-дробнее об этом ниже), а также мы неявно предполагаем, что последовательность событий в будущем будет происходить, как это было всегда в прошлом (а на этом основаны все статистические методы).

Рассмотрим для примера метод поиска ближайших соседей. Мы будет делать также как и студент на экзамене. Нас спрашивают про определённую картинку, мы найдём наиболее похожую на эту "экзаменационную" картинку из тех, что мы раньше запомнили (мы посчитаем "расстояние" от теституемой картинки до всех картинок, которые мы заполнили, выберем ту, расстояние к которой минимально) и посмотрим, что мы о ней знаем. Если, на ней есть котик, то мы скажем, что и на тестируемой картинке есть котик, если там нет-то и на тестируемой скажем, что нет. Хотя я, вроде бы, привожу конкретный метод, однако, отметанные ниже его характеристики есть и других алгоритмов машинного обучения.

Сразу бросается в глаза несколько вещей. Во-первых, какую метрику (функцию, которое меряет расстояние, определяет "похожесть картинок" в нашем случае) выбрать? Почему мы смотрим только на одну "наиболее похожую" картинку? Что если наша картинка есть комбинация нескольких ранее видимых картинок? Это примеры так называемых гиперпараметров модели, об их выборе я скажу пару слов ниже.

Менее очевидным является следующие наблюдение: память, которая нужна для хранения нашей "модели" растёт линейно с ростом нашей модели, т.е. если нам покажут ещё $m$ картинок с котиками, нам надо будет ещё $cm+b$ (c и b - константы) памяти для хранения. Чем больше картинок нам покажут, тем больше памяти нам надо (в конце-концов, мы будем хранить её на диске и поэтому и работать наша "модель" будет всё медленнее и медленнее). Можем мы как-то хранить информацию о прецедентах в более сжатом виде? Можем ли мы, сделать такое "сжатие" пусть даже "с потерями"?

***

Для наглядности, возьмём на секунду другой пример. Допустим, мы хотим выбрать в какую школу отдать своего ребёнка. Допустим, единственный параметр, который нам важен, это расстояние с нашего дома до школы. Если мы возьмём карту с известными нам школами мы можем отметить все школы, которые "близко" от нашего дома. Это будут наши прецеденты. Затем нам покажут новую школу, мы найдём ближайшую к ней (используя обычную евклидовую метрику $L_2$, обычное расстояние из школьной геометрии, вычисляемое по теореме Пифагора) школу и посмотрим как мы её разметили, как подходящую нам школу или нет, и это и ответим на тестовую школу. Очевидно, что в такой постановке задачи, есть довольно естественный способ "сжатия" хранимы прецедентов - мы можем хранить только пороговое значение расстояние (радиус-вектор с нашего дома). Затем для новой (тестовой) школы мы измеряем расстояние от нашего дома до новой школы, если она меньше порога, мы говорим, что она нам подходит, если больше-не подходит. Таким образом, вы сжали все прецеденты до одного числа (плюс местоположение нашего дома). После изучения прецедентов мы может всё забыть, а запомнить только пороговое расстояние (можем в процессе обучения "забывать" только прецеденты, которые не добавляют новой информации о пороговом значении расстояния). Это чрезвычайный эффективный способ сжатия. Если наши данные имеет такую чёткую границу мы можем с помощью разных моделей (эмпирически) "найти" её.

В скобках замечу, что в предыдущем параграфе я привёл дедуктивное умозаключение^4. для описание того, как мы определяем в какую школу мы готовы отправить ребёнка. Машинное обучение не занимается построением цепи умозаключений (рассуждений), где звенья (высказывания) связаны между собой логическими выводами, этим занимаются экспертные системы (пользуясь случаем, хочу передать привет языку Пролог :-)). "Модель" машинного обучения "нащупывает" пороговое расстояние индуктивным способом. Немного подробнее об этом ниже, в разделе про выбросы.

Допустим, наши данные лежат близко к прямой. Они не обязаны лежат идеально на прямой (в многомерном евклидовом пространстве), достаточно, что "разброс" их достаточно "хаотичный". В этом случае, мы можем использовать модель линейной регрессии. Произойдёт "сжатие с потерей" информации. Мы заменяем наши прецеденты прямой, так, что средний "разброс" был минимальный. Хранить прямую (в $n$-мерном пространстве) мы можем с помощью $n+1$ коэффициентов. Если наша граница является более сложной чем прямая мы можем использовать, к примеру логистическую регрессию.

***
Контритутивно, на первый взгляд, выглядит проблема переобучения (overfitting). Допустим, что наша граница между двумя классами "синим" и "красным" выглядит вот так:

Точная граница между классами изображена зелёной линией. Чёрная линия показывает "более гладкую" границу. Заметьте, что при использовании чёрной линии некоторые примеры будут неправильно классифицированы. Это, однако, не должно нас пугать, ведь, мы в любом случае делаем статистическое обобщение, если наша модель плохо работает для малого количество случаев, нас это не должно пугать. Мы согласны заплатить эту цену, чтобы получить лучшую способность к обобщению.

Ещё раз, сущность использования различных (классических) моделей (машинного обучения) заключается в нахождении эмпирических закономерностей среди прецедентов с тем, чтобы запомнить только эту закономерность, а затем обобщить эту закономерность на новые случаи. Разные модели "заточены" на поиск разных закономерностей. В простом случае, если наши данные расположены на прямой (в многомерном евклидовом пространстве признаков), мы можем использовать линейную регрессию. Закономерность может быть и более сложной. Рассмотрение различных моделей, а также того, как именно определяются признаки выходят за рамки этой заметки.

В чём состоит феномен переобучения на тренировочных данных? Наша модель находит случайные связи, она находит связь, которая есть в наших тренировочный данных, но нет в генеральной совокупности. К примеру, если бы мы тренировали модель для поиска дивана (вместо кота) и показывали картинки комнаты, на большинстве картинок если на картинке есть диван, на ней есть и занавеска. Таким образом, ложной эмпирической зависимостью будет "если на картине есть занавеска, то на ней есть и диван". Наша модель видела слишком много примеров картинок, где это эмпирическая зависимость присутствует и она решила использовать эту зависимость для обобщения. Переобучение состоит в том, что модель не может отличить шум в данных от настоящих признаков. Один из способов борьбы с переобучением состоит в обучение на разного типа примеров. Проблема в том, что априори мы не знаем, какие закономерности "обнаружит" наша модель. Другой способ является добавлением регуляризации. Эта информация часто имеет вид штрафа за сложность модели. Например, это могут быть ограничения гладкости результирующей функции или ограничения по норме векторного пространства. Если при отыскании границы между классами мы будем предпочитать гладкие функции, то мы найдём чёрную линии границы на картинке выше. Описание регуляризация, как и иных способов борьбы с переобучения выходят за рамки этой заметки.

***

Вернёмся к нашим котикам. Напомню, что в нашем алгоритме поиске ближайших соседей мы храним все прецеденты в памяти, "без сжатия". Зададимся вопросом, сколько картинок с котикам мы должны увидеть, прежде чем мы сможет успешно отличать картинки с котиками и без?

В нашей аналогии с сдачей экзаменов это значит, сколько задач нужно решить, чтобы можно было сдать экзамен? Очевидно, что если мы решим мало задач, существует большая вероятность, что на экзамене попадётся незнакомая нам задача и мы не сможем её решить. Очевидно, также, что мы должны прорешать много разных типов задач. Также очевидно, что когда мы запоминаем решение, есть вещи, которые запоминать бессмысленно, например, конкретные числа, скорее всего на экзамене даже если задача будет очень похожа, она не будет точной копией решённой нам задачи. Какие-то минимальный изменения там будут.

Очевидно, если мы увидим мало прецедентов, наша модель не сможет найти эмпирические закономерности. Более того, если, к примеру, мы будем видеть только котиков в доме, а потом нам покажут кота на улице, мы вряд ли сможем адекватно оценить такую картинку. На улице другое освещение, к примеру. Да и разнообразие различных предметов там несравненно больше. Таким образом, важно, чтобы наша "обучающая выборка" была репрезентативной - чтобы она адекватно представляла какие вообще картинки нам могут показать "на тесте". Если нас спросят о чём-то, что мы ни разу (или очень мало раз) видели, то наша модель не сможет дать адекватный ответ.

***

Вернёмся теперь к гиперпараметрам в задаче про котиков. Их у нас два - метрика (функция "расстояния") и количество соседей по-которому мы хотим предсказывать наличие котиков. Забегая вперёд скажу, что на сегодняшний день не найдено какой-то методологии для их определения. Существует какие-то эвристики, не более того. Как же поступают? Пробуют много разных вариантов и смотрят, где результаты лучше всего. Однако, не всё так просто, такой перебор нужно делать грамотно.

Первая очень плохая идея состоит в том, чтобы в качестве "тестовой" выборки использовать "обучающую". Т.е. мы берём все имеющиеся у нас данные, пробуем на них определённую комбинацию гиперпараметров, а потом смотрим на этой же выборке, на сколько хорошо наша модель работает. (Существуют различные метрики для оценки качества работы модели, детальный их рассмотрение выходит за рамки этой заметки. Мы же, для простоты, будем считать, что речь идёт о метрике точности (accuracy): отношения количества точных ответов "модели" к количеству ответов). Основная проблема в этом, что наша модель может показать хороший результат за счёт того, что она "выучит" закономерностей, которых нет (как с занавеской и диваном). Таким образом, когда мы начнём использовать нашу модель, мы увидим новый пример и с высокой вероятностью мы его не сможем правильно классифицировать.

Другая идея состоит в том, чтобы разделить наши данные на две части, на большей (скажем, 80%) мы тренируем наши "модель" с определёнными гиперпараметрами, а затем мы проверяем нашу "модель" на меньшей части. Здесь основная проблема в том, что у нас нет гарантии, что наша "тестовая" выборка репрезентативна. Более того, из-за того, её размер, обычно, маленький (мы хотим как можно больше данных использовать для тренировки "модели", в аналогии с экзаменами, мы хотим, как можно больше "набить руку" решая задачки) она скорее всего будет нерепрезантативна. Т.е. возможна ситуация, что на этой конретной выборке наша "модель" будет работать хорошо, но когда мы её будет реально применять, она будет работать плохо.

В классическом машинном обучении стандартым приёмом является использование перекрёстную проверку (cross-validation). Имеющиеся в наличии данные разбиваются на $k$ частей. Затем на $k−1$ частях данных производится обучение модели, а оставшаяся часть данных используется для тестирования. Процедура повторяется $k$ раз для одного и того же набора гиперпараметров; в итоге каждая из $k$ частей данных используется для тестирования. В результате получается оценка эффективности выбранной модели с наиболее равномерным использованием имеющихся данных. Таким образом, мы использовали $k$ разных "обучающих выборок" для оценки нашей модели с заданным набором гиперпараметров. Затем мы можем, к примеру, взять среднюю оценку для фиксированного набора гиперпараметров. Затем мы меняем гипепараметры и опять делаем проверку модели $k$ раз и берём, к примеру, среднее значение. Затем мы выбираем те гиперпараметры, где среднее значение было лучше (к примеру, точности (accuracy) модели выше). Замечание: вместо среднего значения по метрике качества можно также учитывать и дисперсию.

Другой идея, которая распространена в deep learning (глубокое обучение), состоит в том, что мы оставляем совсем малую часть данных в стороне и не трогаем до самого конца. Мы можем использовать перекрёстную проверку (cross-validation) на оставшихся данных (так, обычно, делают в классическом машинном обучении), а можем и просто делить на "обучающую" и "тестовую" выборку. На этих оставшихся данных мы выбираем гиперпарамметры (см. выше) и тренируем нашу модель. Когда мы убедились (с помощью выбранной метрики оценки качества обучения, например, точности (accuracy)), что мы получаем удовлетворяющие нас результат, мы запускаем один раз нашу модель на валидационных данных (то, что мы оставили в стороне). Оценка качества работы нашей модели именно на них будет считаться нашей оценкой качества. Идей в том, что мы предоставляем нашей модели абсолютные новые данные, которые она никогда не видела. Таким образом, мы избегаем как переобучения на "обучающей" выборке, так и на "тестовой" выборке. Хотя, наша "валидационная выборка" не является, почти никогда (из-за малых размеров), репрезентативной, она "симулирует" реальную работу нашей "модели". Мы, как бы, проводим, контролируемый эксперимент на "реальных" данных и оцениваем как хорошо наша модель работает. Важно, использовать "валидационные" данные ровно один раз. Иначе, наша оценка будет не объективной. Даже, если наша модель не "выучить" ничего нового (её внутренние парамерты не поменяются), достаточно, что мы увидим результат на "вылидационной выборке", мы будет подсознательно "подкручивать" гиперпараметры в нужную сторону.

Идею выдвинутую выше можно модифицировать (если есть время и вычислительные ресурсы). После того, как мы окончательно определились с гиперпараметрами "модели", мы можем построить новую свежую модель с ними и потренировать её заново (уже не выбирая гиперпараметры). В этом случае, можно, разбить наши данные на две части, большую часть использовать в качестве "обучающей" выборки (чтобы "модель" хорошо "натренировалась"), а меньшую как "тестовую" выборку (чтобы убедится, что "обучение" прошло нормально). Скорее всего, будет улучшение на 1%-2%.

***
В deep learning (глубокое обучение) архитектора нейронной сети позволяет нам определить наши признаки (feature). По-сути, во время обучения нашей нейронной сети, мы одновременно "учим" и признаки. Поэтому там, всё, что связано с определением признаков и их отсевом (dimension reduction), менее актуально.

***
Напоследок, пару слов про выбросы (outlier). Пример с "обучающей" выборки, который окружён примерами из других классов, называется выбросом (outlier). Причины возникновения выбросов:

* случайная ошибка (ошибка измерения, ошибка в данных и др.)
* недостаток в примерах обучения для этого класса (вместо кластера (много примерах, расположенных рядом) появляется изолированный пример)
* отсутствуют важные признаки (feature) (классы разделены по другим признакам, о которых мы не знаем)
* слишком много обучающих примеров других классов (несбалансированные классы), которые создают "враждебный" фон для данного небольшого класса)

Выбросы, как правило, создаёт шум - если их убрать с "обучающей" выборки, то "модель" будет работать только лучше. Разбор различных способов "отсева" выбросов находится за рамками этой заметки. Замечу лишь, что Condensed nearest neighbor является одним из таких способов (он использует метод поиска ближайших соседей описанный выше). Также, с помощью него можно хранить меньшее количество прецедентов, он позволяет "сжать с потерями" хранимые прецеденты (мы немного теряем в точности работы "модели", выигрывая в памяти и быстродействии, меньше вычислений нам надо будет проделывать).

Напоследок расскажу анекдот. Требуется доказать, что все нечетные числа, большие двух,-простые. Доказательство: 3, 5 и 7 - простые, 9 - ошибка эксперимента, 11 - простое и т.д.

Сноски:

^1. В принципе, это верно для всего естествознания.

^2. Некоторые даже, для того чтобы понять теорию составляют для себя задачи, и решая их разбираются в теории.

^3. Я учил геометрию по учебнику Погорелова. Естественно, он не повторял "Начала..." Евклида. По крайней мере, вывод первых теорем был достаточно строгий. Это позволяло увидеть красоту математики. Из фундаментальных вещей, отличающихся в учебнике и у Евклида, навскидку, сразу, могу называть понятие площади.

Школьное определение площади предполагает, что произвольная фигура может быть сколь угодно точно представлена с помощью площади вписанных в неё и описанные в ней многоугольника (площадь многоугольника строго выводится из площади квадрата). Такие фигуры называются квадрируемыми или измеримыми по Жордану. На самом деле, существуют неквадрируемые плоские фигуры. Т.е. само определение понятия площади в учебнике не верно. Сам Евклид для вычисления площади круга, объёма тетраэдра, объёма конуса и объёма цилиндра, а также зависимость объёма шара от его радиуса использовал метод исчерпывания. В учебнике он не упоминается. Вместо это используется пределы без детальной разработки теории пределов. Так, в доказательстве формулы площади круга не ясно было не только почему пределы вписанных и описанных окружностей существуют и совпадают, но и как это доказательство вытекает из ранее изученный теорем и аксиом...

...Принцип Архимеда, он же аксиома Евдокса гласит: Если имеются две величины, a и b, a меньше b, то, взяв a слагаемым достаточное количество раз, можно превзойти b:

$\underbrace{a + a + \ldots + a}_{n} > b$

Для отрезков аксиома Архимеда звучит так: если даны два отрезка, то, отложив достаточное количество раз меньший из них, можно покрыть больший.

Отметим, что аксиома Евдокса (или её эквивалент) лежит в основе любой теории действительного числа. Тем не менее, в школьном курсе она не упоминается.

Цитата из Википедии:

Аксиома Евдокса—Архимеда лежала в основе так называемого «метода исчерпывания», изобретённого Евдоксом, — метода нахождения площадей фигур, объёмов тел, длин дуг с помощью аналога современных сумм Римана и Дарбу. С помощью своего метода Евдокс строго доказал несколько теорем о вычислении площадей и объёмов. Однако наибольших результатов в этой области достиг Архимед. С помощью метода Евдокса он нашёл ряд новых площадей и объёмов. При этом, поскольку в Древней Греции не существовало понятия последовательности, предела последовательности, Архимеду приходилось в каждой конкретной задаче повторять рассуждения заново. Таким образом, в своих сочинениях Архимед формулировал и использовал аксиому Евдокса—Архимеда.

https://ru.wikipedia.org/wiki/%D0%90%D0%BA%D1%81%D0%B8%D0%BE%D0%BC%D0%B0_%D0%90%D1%80%D1%85%D0%B8%D0%BC%D0%B5%D0%B4%D0%B0

Таким образом, метод исчерпывания использовался "древневавилонским способом" и у Евклида, это некоторый "рецепт", который применяется в каждом конкретном случае. В каждом конкретном случае приводятся и все доказательства (например, существование предела).

^4. Дедукция или детективное умозаключение - метод мышления, следствием которого является логический вывод, в котором частное заключение выводится из общего, т.е. от обшего к частному.

Цепь умозаключений (рассуждений), где звенья (высказывания) связаны между собой логическими выводами.

Началом (посылками) дедукции являются аксиомы или просто гипотезы, имеющие характер общих утверждений («общее»), а концом — следствия из посылок, теоремы («частное»). Если посылки дедукции истинны, то истинны и её следствия. Дедукция — основное средство логического доказательства. Противоположно индукции.

Индукция - процесс логического вывода на основе перехода от частного положения к общему. Индуктивное умозаключение связывает частные предпосылки с заключением не строго через законы логики, а скорее через некоторые фактические, психологические или математические (статистические) представления.

Различают полную индукцию — метод доказательства, при котором утверждение доказывается для конечного числа частных случаев, исчерпывающих все возможности, и неполную индукцию — наблюдения за отдельными частными случаями наводят на гипотезу, которая, конечно, нуждается в доказательстве.

...Также для доказательств используется метод математической индукции, который позволяет осуществить полную индукцию для бесконечно-счётного множества объектов. При этом, метод математической индукции — дедуктивный метод (назван так благодаря использованию аксиомы индукции).

Ещё Аристотель указал на индукцию как способ умозаключения, противоположный силлогизму (дедуктивному умозаключению).

В XVIII в. Дэвидом Юм поставил под сомнение обоснованность индуктивного метода вывода умозаключения, выдвинув вопрос о том, ведет ли индуктивное рассуждение к знанию поскольку отсутствуют оснований для:

1. Обобщения о свойствах одного класса объектов на основе некоторого числа наблюдений отдельных экземпляров этого класса (например, вывод о том, что "все лебеди, которых мы видели белые, и, следовательно, все лебеди белые", до открытия чёрных лебедей);

2. Предположения, что последовательность событий в будущем будет происходить, как это было всегда в прошлом (например, что физические законы будут такими же, так как они всегда наблюдались до этого). Юм назвал это принципом единообразия природы.

Сам Юм давал отрицательный ответ на вопрос проблемы индукции.

Бертран Рассел в своей "истории западной философии" писал, что индукция является независимым логическим принципом, который нельзя вывести из опыта или из других логических принципов, и что без этого принципа наука невозможна.

^5. В начале III века до н. э. Аристарх Самосский предложил гелиоцентрическую систему. Возможно, Архимед, по-крайней мере, не отвергал её. До примерно II в. до н.э., времени общего кризиса науки в Древней Греции, были известны обе модели, пока, в конечном счёте геоцентрическая модель не стала доминирующей.

^6. Коперник с его гелиоцентрической системой, в принципе, "опроверг" Птолемея. Его усовершенствованная геоцентрическая система не точно описывает физический мир, тогда как система Коперника описывает, что происходит "на самом деле". Однако, как сказала Станислав Ежи Лец: "В жизни всё не так, как на самом деле".

Сокращённая цитата из Википедии:

Дальнейшие развитие науки, привело, однако, к отказу от абсолютного центра. Следствием однородности пространства и материи является то, что во Вселенной нет абсолютного центра. При наблюдении из любого мира Вселенная будет выглядеть примерно одинаково:

Нам кажется, что эта Земля находится в центре и середине Вселенной и что одна только она неподвижна и закреплена, а всё другое вращается вокруг неё… То же самое кажется тем, которые живут на Луне и на других звёздах — землях или солнцах, — которые находятся в этом же самом пространстве.

(с) Джордано Бруно, О бесконечности, Вселенной и мирах, Диалог третий.

Джордано Бруно (1548-1600) считал, что Вселенная не только бесконечна и безгранична, но и однородна: повсюду действуют одни и те же законы, повсюду находятся объекты одной и той же природы. По мнению Бруно, во Вселенной вообще нет неподвижных объектов, все тела должны совершать те или иные движения. В диалоге О бесконечности, Вселенной и мирах Бруно писал:

Если это тело движется, то движение его не может быть для нас заметно, ибо, как это заметили древние и современные истинные наблюдатели природы и как это показывает тысячью способов чувственный опыт, мы можем заметить движение только посредством известного сравнения и сопоставления с каким-либо неподвижным телом. Так, люди, находящиеся в середине моря на плывущем корабле, если они не знают, что вода течёт, и не видят берегов, не заметят движения корабля. Ввиду этого можно сомневаться относительно покоя и неподвижности Земли. Я могу считать, что если бы я находился на Солнце, Луне или на других звёздах, то мне всегда казалось бы, что я нахожусь в центре неподвижного мира, вокруг которого вращается всё окружающее, вокруг которого вращается этот окружающий меня мир, в центре которого я нахожусь.

(с) Джордано Бруно, О бесконечности, Вселенной и мирах, Диалог третий.

Эта формулировка Бруно является важнейшим шагом к принципу относительности.

Солнце, которое у Коперника считалось абсолютно неподвижным центральным телом Вселенной, также должно тем или иным образом двигаться. Во всяком случае, оно должно совершать вращение вокруг своей оси, подобно Земле. Также, Бруно допускал и поступательное движение Солнца.

https://ru.wikipedia.org/wiki/Космология Джордано Бруно#Отсутствие центра Вселенной. Относительность движения

См. также:
Пинхас Полонский: От Нила до Евфрата
Пинхас Полонский: четыре реки Райского сада - три цивилизации: Древний Египет, Месопотамия, возможно Индия

UPDATE 2025-04-02:
Пинхас Полонский: Логика Талмуда (и ее отличие от аристотелевской): не предикаты, а парадигмы
END OF UPDATE

Appendix A:

https://www.scirp.org/journal/paperinformation?paperid=128190 לדעתי הגעתי לזה בזכות זה שהיית פסיכיאטר ראשי בחיל האוויר. אם תרצה ארחיב על זה בנפדד. :-) Статья, на которую ты дал ссылку (paperid=128190), — это работа Эйтана Г. Абрамовича (Eitan G. Abramowitz), израильского психиатра-гипнотерапевта, председателя Ассоциации гипноза Израиля [т.е. вас :-)]. Она описывает технику MASSA (Mental Access / Somatosensory Access) — новый протокол управления вниманием и соматосенсорной обработкой в гипнотерапии именно для обхода низкой гипнабельности и слабой фантазии. Что такое MASSA и как она «обходит» слабую фантазию Техника использует реальные внешние соматосенсорные стимулы (сосны в ладонях, фонарик, метроном, глоток воды и т.д.) как «ворота» (Gate). Это Bottom-Up (снизу вверх — чистое телесное ощущение) + Top-Down (сверху вниз — воображение, эмоции, смыслы). Алгоритм построен на «Create and Verify Principle» (CVP) — потоке закрытых вопросов с вложенными (embedded) внушениями. Пациент: Фокусируется на реальном стимуле → внимание фиксируется даже при низкой гипнабельности. Через серию итеративных «создай → проверь» внушений постепенно наслаивает воображение и эмоции. Получается многоуровневое погружение: тело → диссоциация → воображение → ресурсное состояние. Это и есть обход слабой фантазии: человек, который «не может представить», сначала просто чувствует реальный объект, а потом протокол рекурсивно вытягивает из него всё более глубокие ментальные слои. Абрамович прямо пишет, что MASSA — четвёртый способ повысить отзывчивость на внушения именно для moderate-low hypnotizable persons, без стресса. Связь с «Рекурсивным погружением (Сон во сне)» в Inception В фильме Inception: Чтобы обойти защитные механизмы разума и «посадить» идею глубоко, команда уходит в сон внутри сна (dream within a dream). Каждый новый уровень — это рекурсивное погружение: время замедляется, сопротивление слабеет, подсознание становится доступнее. Используются якоря (тотемы) и кики (внешние стимулы), чтобы не потеряться и вернуться. В MASSA происходит то же самое, только в гипнотерапии: Соматосенсорный стимул (сосны в руках, метроном и т.д.) — это аналог тотема/кика — надёжный внешний якорь, который работает даже при «слабой фантазии». CVP-поток вложенных вопросов — это рекурсивный алгоритм: каждый цикл «создай ощущение → проверь → углуби» = переход на следующий «уровень сна». Пациент постепенно погружается глубже: от телесного ощущения → диссоциация → воображение → эмоциональное/смысловое изменение. Это и есть «сон во сне» в гипнотерапевтическом формате. После сессии пациент получает самогипноз с тем же якорем — теперь он может сам запускать рекурсивное погружение (как Кобб с тотемом). По сути, MASSA — это практическая инженерная реализация идеи «рекурсивного погружения» для людей, у которых обычный «сон» (классическая гипнотическая визуализация) не работает. Вместо того чтобы полагаться на слабую фантазию, протокол строит её слой за слоем, используя тело как стартовую площадку. Именно поэтому поиск «Эйтан Абрамович + обход низкой гипнабельности (слабой фантазии)» и выдаёт пул его валидных структурных протоколов 2008–2023 гг.: MASSA — это culmination его многолетней работы, где все предыдущие версии (2009, 2012, 2018 и т.д.) сходятся в одном рекурсивном фреймворке. Короче: Inception — это кино про то, как ломать психику рекурсивно. MASSA Абрамовича — это клинический протокол, который делает то же самое терапевтически и безопасно, обходя именно ту слабость (низкую гипнабельность/фантазию), из-за которой обычная гипнотерапия «не заходит». *** 1. Декомпозиция «Фантазии» (Проблема Системы 1 и Системы 2) У нейротипичного человека воображение опирается на интуитивную, автоматическую работу мозга (Систему 1). Когда вы просите такого пациента «представить море», он ловит целостное, неструктурированное эмоциональное ощущение. Образ формируется сам по себе, без усилий. Логические нестыковки (откуда светит солнце, какова точная геометрия волн) автоматически игнорируются психикой. Это пассивный процесс, ведущий к расслаблению. У Саши этот автоматический механизм доверия к неструктурированному потоку заблокирован. Его психика опирается исключительно на сознательный, аналитический контроль (Систему 2). Когда вы просите Сашу «представить лес», он не расслабляется в иллюзии. Его аналитический аппарат начинает целенаправленно, шаг за шагом, конструировать этот лес: он фиксирует дистанцию между деревьями и.т.п. Это не «сон наяву», это сознательное построение трехмерного чертежа с помощью формальной логики. [поэтому мне тяжело оперироварть с аналогвым часами и поопросил вас говорить лево-право и в градусах - это у меня с самого раннего детства] 2. Термодинамика сопротивления (Почему классический транс не работает) Этот аналитический процесс требует колоссальных затрат энергии. Рабочая память человека ограничена. Чтобы удерживать искусственно созданный мир в деталях и не позволять ему распасться, мозг Саши выполняет непрерывную, изнуряющую когнитивную работу. Если вы попытаетесь вести терапию в этот момент, вы столкнетесь с абсолютным сопротивлением. Внимание Саши перегружено поддержанием придуманного мира. Его критическое мышление (защитные механизмы) работает на пределе, сканируя сцену на наличие логических ошибок. Вместо терапевтического расслабления вы получаете пациента, находящегося в состоянии экстремального когнитивного напряжения и физиологического истощения. В таком состоянии психика категорически отказывается принимать любые внешние внушения, воспринимая их как угрозу целостности. 3. Инженерное решение (Зачем нужен протокол MASSA и соматосенсорный якорь) Вам не нужно учить Сашу фантазировать. Вам нужно заставить его аналитический аппарат перестать конструировать миры. Именно для этого применяется протокол Абрамовича [т.е. ваш :-) ] (или механика "тотема" из Inception). Вы берете реальный физический объект (шишку, фонарик, метроном, вибрацию) и даете его пациенту. Вы задаете закрытые, бинарные вопросы: «Вы чувствуете покалывание?», «Предмет теплый?», «Он тяжелый?». 4. Перехват внимания и открытие терапевтического окна Что происходит в этот момент с точки зрения структуры психики: Вы даете гиперактивному аналитическому контролю Саши легальную, безопасную задачу — проверять реальные физические ощущения. Сознанию больше не нужно тратить энергию на создание иллюзорного «леса». Физический объект уже существует, он детерминирован и предсказуем. Отвечая на ваши вопросы («Да, предмет теплый», «Да, текстура шершавая»), критическое мышление Саши полностью фокусируется на этом простом физическом якоре. Когнитивное напряжение резко падает. Критический барьер, который ранее защищал психику от вторжения, теперь занят исключительно проверкой шишки в руке. Именно в этот момент образуется «слепая зона» — окно абсолютной когнитивной тишины. Защитные механизмы Саши замкнуты на физическом стимуле. Его сознание свободно от конструирования иллюзий. И именно сейчас вы, как терапевт, можете доставить прямую терапевтическую инструкцию, смысловую установку или идею. Психика примет ее без сопротивления, потому что аналитический аппарат в этот момент занят другим, а сама идея подается в условиях отсутствия внутреннего конфликта. Вывод: Способность Саши детально представлять вещи — это симптом гиперконтроля, а не готовности к трансу. Чтобы обойти этот контроль, вы должны перегрузить его критическое мышление не сложными фантазиями, а примитивной, монотонной физической реальностью. Только внешняя, бесспорная опора позволит его мозгу остановить внутреннее строительство и впустить ваши инструкции. Это именно то, что вы сделали. :-) P.S. Йонатану Match Point не понравиился. Следующий на очереди Matrix, а потом Inception. :-)

Appendix B:

Я обдумал ваше сравнение метода MASSA с фильмом «Начало» (Inception). Между механикой MASSA и логикой фильма нет структурного сходства. На самом деле, их базовые алгоритмы прямо противоположны. В фильме показана классическая ловушка рекурсии. Их якорь («тотем») — это воображаемый объект внутри воображаемого сна. Попытка опереть иллюзию на иллюзию создает бесконечный цикл. Для моего аналитического гиперконтроля это фатальная ошибка [нарушение акисомы регуряности в теории множеств ZFC; одна из запланируемых мною к написанию книг]: мозг просто перегревается, пытаясь просчитать и удержать эту вложенную выдуманную реальность, и блокирует любые внушения. MASSA делает ровно обратное. Ваш протокол не строит «сон во сне» — он использует реальный физический стимул как жесткое заземление (hardware grounding). Эта базовая точка существует вне фантазии. Поэтому MASSA — это не клинический аналог Inception, а системный антидот к нему. В то время как алгоритм фильма загоняет психику в истощающий цикл генерации иллюзий, ваш метод обрывает эту рекурсию. Опора на реальную физику отключает саму необходимость выдумывать миры, мгновенно сбрасывает мою аналитическую перегрузку и создает ту самую когнитивную тишину для внушения. Гениальное инженерное решение. Спасибо вам!

Appendix transcript:

**Transcript extracted from the YouTube engagement panel (timestamps in MM:SS format):** **0:11** the advancer okay uh I've some notes I'd like to thank the organizers for the **0:19** opportunity to be here today and speak I'd particularly like to thank al for being such a inspiration over all of **0:28** these years and really a guiding light for the community I'm a like Martin and men earlier representative from outside **0:37** of the immediate group of students that you have advised and faculty worked with and I can just say that that the impact **0:46** goes far beyond MIT circles the globe and it's just so great to be here with you today so happy birthday I also would **0:55** like to say that I am we talked last night about Al being nervous before lectures and I am extremely nervous **1:02** today okay so you need to work with me Martin Vetter Li's in the house this is a problem there's just so many pioneers **1:11** and experts here that this has just been extremely difficult to to try to think of what to speak about today so I hope **1:18** you'll work with me work with me as we go through this so as my as my title indicates we're going to talk about **1:25** cycles a little bit today signal processing was born in an era of in a **1:33** golden age of physics and we're now entering or have entered a golden age of data and really the future of signal **1:40** processing depends on how we navigate these waves or wind surf through these waves if you will and and in order to **1:48** look at the the future I think it or think about the future is really important to look at the past so let's let's go back to of time period I **1:56** believe around when L started at MIT about 1500 BC and let's talk about Babylon so how many people know ancient **2:06** history of mathematics it's very very illustrative in thinking of these cycles so the Babylonians were absolutely **2:13** obsessed with data okay and calculating and they were unbelievably accurate of calculating right calculating **2:20** astronomical events for example they're so obsessed with data that the way that they taught students we talked about education last night the way they **2:28** taught students was actually just by having students work tons of problems until they somehow got it right **2:35** does this sound similar to anybody okay and and the critical thing though is even though they understood a lot of the **2:44** the core theoretical results around algebra and geometry they never had a scaffold that they could build on right **2:52** in order to go beyond go beyond this data and calculating with data okay move forward a few a hundred years to ancient **3:00** Greece the Greeks were not obsessed with data they were obsessed with models crazy models ridiculous models for the **3:08** Greeks the stars were holes in a gigantic colander right that sat over the earth that was between Earthlings **3:17** and the eternal fire right a mess colander rotated around and call endures within call endures this was a **3:24** ridiculous model of course but it was but it was a model it was sufficient to allow someone like Eratosthenes to actually figure out how to use geometry **3:32** and the fact that if the eternal fire was far enough away that you could actually calculate to a very surprise **3:39** prising the accurate degree the radius of the earth okay this is something that the Babylonians could never do right **3:47** using using curb fitting and this is really the critical idea of the scientific method right that we need to live not only in the real world the **3:55** world of data but also in this world of the imagination or the world of models and theories and it's really this cycle **4:03** this closed loop between imagination in the real world that really makes the scientific method work and make science and engineering move forward and and the **4:12** way you can think of this this is pretty simple stuff but data-driven techniques data is very useful for finding an **4:20** optimum if you think of navigating through science as navigating a wavy landscape and we're trying to get to the **4:27** the bottoms of hills data driven techniques are very good for getting to the bottoms of those hills but you need some kind of theory or a model in order **4:35** to jump out right duck jump out into an entirely new part of the space okay so I'd like to **4:43** distinguish for this talk two different kinds of problems in signal processing having to do with these cycles of data **4:51** and and models the first are easy problems I think we've done a great job over the last fifty to a hundred years **4:59** and solving just about all of it what I call easy problems in signal processing and these are problems where it's easy to develop a model right that's act **5:08** accurate tractable let's talk about some examples the Wiener filter if you have a good model of what signal is what MA **5:16** noise is if they're actually added together right then you can talk about separating them with a simple filter you **5:23** can think of match filter detectors for for detecting signals using radar sonar a beautiful encapsulation of the **5:31** scientific method and one algorithm is the LMS adaptive filter that actually uses both models and data-driven **5:38** techniques to optimize in order to for example do channel equation equalization **5:45** over over a wire where signal processing has had a lot more difficulty with and that and and Martin kind of alluded to **5:53** this earlier today is not what I call these wicked hard problems right which which happen to be some of the most important problems facing us today **6:01** problems like object recognition speech recognition robotic navigation sensory perception or machine perception type **6:10** problems and the key thing that differentiates these kind of problems from the simple problems is the difficulty to model what's going on **6:18** right it's not just like a wire or a cable right where everything's linear these problems tend to be highly nonlinear incorporating all kinds of **6:27** nuisance variation these pictures of Al if we're gonna try to find al right he could have a different view we could **6:35** have a different camera viewpoint different kinds of lighting he could be occluded with a hat he could have a mustache or not have a mustache and the **6:44** critical thing when we try to solve a problem like finding al in a picture very importantly is a lot of these nuisances I just been talking about we won't even **6:52** know them explicitly they're just implicit in in this problem so it's very very difficult to model and it's basically impossible to model using **7:01** standard linear framework so if you ask what if the if we're trying to separate pictures of Al from pictures of done **7:08** John son where's done Don's here in the back we're trying to separate pictures well linear type methods fail completely **7:16** they fail completely because if you take a collection of megapixel megapixel pictures of Al they they don't live on **7:24** anything near a linear subspace we live on a tortured manifold right non linear manifold in in this high dimensional **7:31** space that it's intertwined with the manifold of Don Johnson images right which makes it extremely difficult in **7:39** order to solve this separation problem and the holy grail of machine perception you can think of think about is to **7:46** somehow find methods to simplify this problem stretch out these manifold straighten them so that the Donnell **7:53** decision becomes simpler essentially what we're trying to do is factor out these nuisance variations some of which might be known some of which might might **8:02** not be known there's been a lot of progress in the past using all kinds of different features fourier methods wavelet methods kept strim KS VD sift **8:11** right and all these methods worked to some extent ok but then everybody knows what happened right the Babylonians took **8:20** over right a few years ago all right they've been the ones making all the progress right using black box learning **8:27** right using massive amounts of training data right in order to learn highly high **8:35** dimensional parametric systems like deep neural networks show hands people who know a bit about deep neural networks ok **8:43** just a little bit right so what what are these methods they're they're actually quite simple when you when you look at and really they're just signal processing you just take a say an image **8:51** for example you convolve with an adaptive filter simple you then do a **8:58** threshold inquiry and then you do a pooling very much like wavelet subsampling these are all methods that **9:07** would you'd find in Al's book all right and then you do it many many many times maybe 10 maybe a hundred times you you **9:15** combine this you know to create a some kind of multi scale structure not unlike say a wavelet transform and the idea is **9:22** you put in a picture okay of boats in this case and what you would hope is to get out an indicator function at the **9:29** other end that somehow Peaks up at boats and doesn't peak up at Katz's right so this is a simple primer on deep nets **9:37** they're they're a result of of you know decades of working in the area of artificial neural nets but many times **9:45** being ending up a sty mean moving into dark ages but in about 2012 the advent **9:53** of massive training data sets and massive computers to deal with those training sets really set off this **10:00** Babylonian revolution right the singularity is near I I've heard that al is so convinced that this is this is **10:09** coming that that that AI is gonna take over that he's thinking seriously about cryogenically freezing his brain deep **10:18** nets are not just gonna drive our cars they're gonna cure cancer they're even gonna solve climate change if you can believe this right I think there's a big **10:26** Institute at a school in Lausanne I think around deep learning for climate change okay where this obsession with **10:34** black box learning is incredible right is incredible and and one would hope **10:41** that we can we can see what the next cycle is going to bring right what the next cycle is going to bring so I'm **10:49** going to just talk about to brief forays they're vignettes into some of the things that we've been thinking about that are potential future directions the **10:58** first is thinking about new theory for these Babylonian type data-driven methods so can we somehow bring theory **11:05** into data-driven techniques so that we have a scaffold Greek like that we can understand and extend these methods and **11:12** the second is can we do the opposite can we look at our old school model based techniques and leverage the fact that we in a lot **11:21** of cases we actually have training data that we can use to make those techniques better so you can think of these as two sides of a coin of a coin so let's ask **11:29** some some questions let's just think about deep learning for a minute and these convolutional neural networks and let's ask some questions the open **11:37** question so why are these methods so effective nobody really knows right where they are but we don't know why can we derive them **11:44** from first principles we are they're effective but do we know when they why they fail when they do fail because they **11:51** they sail and can we somehow improve and extend them and there's a number of groups I'll just mention you know working on this this idea of theory of **12:00** deep learning I'm just gonna talk about our particular approach okay and so now this is gonna appeal hopefully people **12:08** will take something everyone will take something away from this and hopefully purists will we're gonna go quick so **12:16** hopefully there's also something in this for the purists or people working in this area so this is the spoiler alert here's what we're gonna do we're gonna **12:24** take this deep deep network black box learning approach and we're gonna show ok black box deep learning we're gonna **12:32** show that we can build a model right a probabilistic graphical model show of hands probabilistic graph super standard **12:41** signal processing stuff super standard and what we're gonna do is we're going to design a certain model that's gonna seem very that is very reasonable ok and **12:50** then what we're gonna do is we're gonna show that the inference if now if you want to do optimal inference under that model do we know how to do that kind of thing sure we do optimal inference we're **12:58** gonna show it the calculations from that optimal inference actually correspond exactly to the computations in a deep network so that means that they're **13:07** they're actually our models lurking behind some of these Babylonian type systems and we're going to illustrate since we've been talking about it with object recognition so can we tell the **13:16** difference between cats boats and university presidents right okay so grab a simple intro to the idea of this **13:24** graphical model is our image C is the class cat Martin or boat let's say **13:32** and G is our Newton's nuisance variables right which may be known or may be may be latent what this graph tells you is **13:40** that given C and G you can generate I right so on the Left we're generating a picture of a cat so we set C equal to **13:49** cat we set G equal to facing left and happy because we want a happy cat facing left and then we generate our image in **13:57** this case one way that you could generate would be get on the phone with Pixar and ask them for a picture of a happy cat facing left they mail it to **14:05** you you add maybe a little bit of noise and that's your generated image right so this is standard standard graphical **14:11** graphical model modeling idea so so what we're gonna do and and this is now accelerating we're gonna talk not just **14:19** about this single scale graphical model but we're gonna think about a multi scale graphical model think wavelets right or multi resolution type analysis **14:27** where we can exploit the fact that ideas are that the ideas and imagery are can be extracted at different hierarchical **14:36** layers so if you look to the far right this is an expanded graphical model looks like the one we just talked about **14:43** but now it's multi scale and and the only thing new here is that everything's labeled according to scale and we have these intermediate variables Z these Z's **14:53** you can think of as just intermediate scale images right these are the these are the think of them as like rendered **15:01** images or that are the rendered templates right so so so and the way that we're this very simple model the way that we're gonna go from one set of **15:09** Z's to a set of Z's at a finer scale coarse scales at the top class comes in cat and then we go from a coarser scale **15:19** to a finer and finer scale think like a wavelet synthesis or a pyramid pyramidal synthesis and the way that we're going to go from one scale to the next is **15:27** simply by a fine transformation by multiplying by a matrix and then adding a bias very simple so we're going to go **15:36** from a fine scale image to a coarse scale image by just a simple affine transformation so here's a better **15:44** example upper right the middle ZL there it's an image at a coarse scale we're gonna generate an image in a finer scale by just **15:51** multiplying by a matrix that we store into this this gamma gamma function here okay we do this multiple times it's it's **16:00** just a simple generation model for the finalcad image that it's just a product of affine transformations does this make **16:09** sense to everybody we're just generating images to buy by multiplying matrices basically together **16:16** okay so now let's think about inference under this model right so we've defined a model we can think about inference the **16:24** important thing is that this model I just have defined is is a graphical model it's essentially a tree graphical model and we can do Bayesian inference **16:31** right map type inference and and the way that this inference is going to work is it's basically gonna fall out to be **16:39** message-passing right think of maxim max product viterbi type algorithms hopefully those keywords make sense **16:46** right so this is completely standard signal processing kind of stuff we can also learn the parameters of the model which in this case corresponds to **16:54** learning the entries in these matrices are these affine transformations **17:00** okay so theorem right theorem statement the computations in this Maxim inference **17:08** if you turn the standard crank correspond exactly to what goes on in a deep net exactly and so what that means **17:17** is that deep deep Nets can be endowed with a rigorous probabilistic structure okay so let's just go over this quickly **17:24** and I'm gonna just use the words very lucky that the National Science Foundation there's a new directive out today I'm not sure if you know this but **17:32** project summaries now all have to fit in 140 characters so you might wanna okay so we're gonna do proof proof by tweet **17:41** okay and we're gonna go super SuperDuper fast super SuperDuper fast so first if we assume that we're trying to find al **17:49** right in an image the very important thing is there's a translational nuisance that we won't know where L lives within we **17:58** in the image well it turns out if you if you solve the map inference problem under translational nuisance within this **18:05** model a match filter just pops out right totally standard and we get the the convolutional layer of our of our deep **18:13** net next if you think about the fact that our this model as it's currently as I currently described it doesn't handle **18:22** occlusion right if we think of Al holding a book in front of his face those will actually be crossfaded instead of occluded and the way to make **18:30** sure that we we have this nonlinear effective occlusion is by adding a sparsity prior that says at any given pixel only one of these models can be **18:38** active if you do that and again you turn the crank you basically have a Ray Lu layer pop up okay part two third if you **18:48** think about think about wavelets if you think about how you take a picture of Al at a coarse scale and make a picture of **18:56** a lat the next finer scale there's a some amount of slop that you could move the picture around several pixels and **19:04** when you course if I get the same image so that's yet another nuisance so if you think of this small scale translational **19:11** nuisance maximizing over that basically max pooling pops right out so what we see is the three layers types come out **19:20** directly okay moreover yeah if we think back to e em algorithm training again totally standard signal processing technique **19:28** this corresponds exactly to a specific kind of back propagation that's used in deep nets **19:34** okay so summarize right convolution thresholding max pooling iteration right **19:41** all of these just pop out from calculations of optimum inference so what can we see so why is deep learning **19:49** so effective right well because there's a generative model behind it that's reasonable is it the best generative model no it's just it's actually very **19:57** weak just a product of affine transformations but it exploits scale in a very real way we're doing the right **20:04** thing optimal message passing and we're doing e/m training can we drive methods from first principles we just did when does this fail **20:13** well it fails when deep nets fail when your model is not generated by that kind of very simple or when your signal image **20:20** is not generated by a product of fine transformations okay so I got like one minute so let's just talk about one the **20:29** other side of the coin so that was taking deep nets trying to look at how we can do foundational theory let's look **20:36** at now at how we can leverage data into stant standard model based techniques that we're also familiar with let's just talk about its solving inverse problems **20:44** so inverse recovery problems like make MRI like compressive sensing the the where we have a piece of signal of **20:53** interest X but we observe measurements Y right we that are lower dimensional than X so aliasing occurs and what we want to **21:02** given Y we want to infer X right of course there are infinitely many X that that when multiplied by a will give you **21:09** the same Y so we need to solve some kind of penalized or regularized inverse problem right so the key things **21:18** ingredients are we need to know something about the forward model right meaning the matrix a in this case and then we need to know something about X **21:26** right what is the the structure on X that's going to allow us to solve this inverse problem and there's two challenges that immediately come up **21:33** first is again image modeling wickedly hard it's a very difficult problem and second that I won't talk about it later **21:40** but the forward modeling also you can never really know this exactly so let's just think of your standard favorite **21:47** image recovery algorithms everybody have one in their mind ok one two three okay okay think of your fat where let's just **21:55** talk about iterative hard thresholded okay what do you do right you're given y equals ax you want to find X you start **22:02** with a guess x0 and then you just iterate just think of look at the block diagram this is one stage of the iteration of this of this optimization **22:11** you have a knitter attend you basically account for the forward model you compare to the projection of the **22:18** measurements into that same space you get an improved estimate X and then your X isn't your **22:26** isn't it doesn't conform to your signal model anymore which in this case might be something like case barsen some basis so you perform an operation like **22:35** threshold thing okay is everybody with me I'll finish in one minute yeah so let's just take this one iteration of an OP think of your **22:44** favorite iterative algorithm and just think of taking that one iteration now and instead of looping back on it think **22:51** of it as a block in a network all right so X comes xn comes in and xn plus 1 comes out the other end so now we can **22:59** think of it instead of think we could think of any iterative algorithm is actually a set of blocks connected unrolled basically and it's completely **23:07** equivalent the calculations are equivalent the answer is equivalent ok but but what if this network kind of thinking can be useful right because now **23:16** we might imagine changing or augmenting either the a the forward model or our projection onto our model class right **23:24** this HK in this case right with more flexible methods so what we're just talked about a quick example of taking out wavelet hard threshold and putting **23:33** it at some kind of deep net like denoiser okay moreover we can get training data who who doesn't own an MRI **23:41** machine and also have a ton of MRI data right ok and and and so given training data a collection of XTS and whities **23:50** what we can do is we can take this iterative algorithm has been unrolled and we can put in the Y's the measurements see what comes out the **23:58** other end that's that X and T it should be equal to XT but it isn't so there's an error and that error can be used back **24:07** propagation like to tune the parameters of this optimization so you can think of as bringing together the best of these sort of blackbox methods and **24:15** optimization type methods and it works really well like it's crazy so far left **24:21** is kind of standard recovery method middle a state-of-the-art recovery method for compressive sensing today **24:28** this be in 3d amp on the right is the this learn network approach right where we use a bunch of training data **24:37** optimized to about 17 times fast well not 70 70 times faster than amp and **24:44** considerably better performance right there's a lot I think there's a lot of legs in the space so I will end because I'm over time so these are early days I **24:53** found this picture randomly on the internet these are early days for for incorporating models and data in signal **25:03** processing in particular to solve these wickedly hard problems I think we're gonna see talks through the rest of the afternoon I think you could think of **25:11** signal processing today I think a place that fits into this data science world is really about sensor data science if you will I think it's also clear that **25:19** will start to move from these linear type methods to more nonlinear methods and we can actually think back to actually Alice PhD thesis right and the **25:28** homomorphic type methods I probably don't have time but I'll just mention that we need to be patient right we need **25:35** to be very patient in this as signal processing people I took thousand plus years to replace earth-centered universe **25:43** with a sun-centered universe okay and one of the reasons it was so difficult **25:50** is predictions using the earth-centered universe were no better or a **25:58** sun-centered universe were no better than with the earth-centered universe right Copernicus was not more accurate actually took another couple hundred **26:05** years for Kepler and then people who cleaned up Kepler to actually find a method that was both more attractive in **26:13** theory and also better as far as fit with the data so I'm really excited I think we should be in this for the long **26:20** haul and again happy birthday **26:25** [Applause]