13.02.2018

«Мыслеформы – это алфавитные операторы, которые бывают однозначные,  многозначные и неопределенные»

В ши­ро­ком по­ни­ма­нии фи­нан­со­вые тех­но­ло­гии в государственном секторе — это любые тех­но­ло­ги­че­ские ин­но­ва­ции в от­рас­ли управления государственными фи­нан­сами. Сфера фин­те­ха, раз­ра­ба­ты­ва­ет новые тех­но­ло­гии для трансформации тра­ди­ци­он­ных фи­нан­со­вых подходов.

2

3

4

5

6

7

8

9

2018-2022

Основные понятия и направления, которые используются при построении  модельных систем управления государственными финансами:

Крип­то­ва­лю­та — это де­цен­тра­ли­зо­ван­ная циф­ро­вая ва­лю­та, ко­то­рая ис­поль­зу­ет шиф­ро­ва­ние (про­цесс пре­об­ра­зо­ва­ния дан­ных в код) для со­зда­ния ва­лют­ных еди­ниц и осу­ществ­ле­ния тран­зак­ций без уча­стия цен­траль­но­го банка или пра­ви­тель­ства. Наи­бо­лее рас­про­стра­нен­ные циф­ро­вые ва­лю­ты — это бит­ко­ин и Ethereum. Но есть и дру­гие формы вир­ту­аль­ных денег, на­при­мер, Litecoin, Ripple и Dash (Digital Cash).

«Бит­ко­ин» — тер­мин, ко­то­рый мы все чаще слы­шим и в кон­тек­сте тра­ди­ци­он­ных фи­нан­сов, — это пер­вая и одна из самых из­вест­ных крип­то­ва­лют, ко­то­рые ис­поль­зу­ют трей­де­ры в мире фин­те­ха. Все на­ча­лось, когда ано­ним­ный пер­со­наж (или груп­па лиц) под псев­до­ни­мом Са­то­си На­ка­мо­то раз­ра­бо­тал бит­ко­ин в виде пи­рин­го­вой (P2P) пла­теж­ной сети, ко­то­рая не нуж­да­лась в ка­ком-ли­бо цен­траль­ном управ­ля­ю­щем ор­гане. В со­про­вож­да­ю­щем ин­фор­ма­ци­он­ном тек­сте, ко­то­рый пред­став­лял эту вир­ту­аль­ную ва­лю­ту, На­ка­мо­то дал сле­ду­ю­щее опре­де­ле­ние бит­ко­и­на: «Пи­рин­го­вая вер­сия элек­трон­ных денег, ко­то­рая поз­во­ля­ет со­вер­шать он­лайн-пла­те­жи на­пря­мую, без по­сред­ни­че­ства фи­нан­со­вой ор­га­ни­за­ции».

Блок­чейн — это форма рас­пре­де­лен­ной тех­но­ло­гии учета (DLT, distributed ledger technology). Это озна­ча­ет, что он под­дер­жи­ва­ет за­пись всех тран­зак­ций шиф­ро­ва­ния в рас­пре­де­лен­ной ком­пью­тер­ной сети, но не имеет цен­траль­ной книги учета. Он за­щи­ща­ет дан­ные через за­шиф­ро­ван­ные «блоки». Раз­лич­ные экс­пер­ты по блок­чей­ну счи­та­ют, что тех­но­ло­гия может обес­пе­чить про­зрач­ность для мно­гих раз­лич­ных от­рас­лей, а не толь­ко для фи­нан­со­вых услуг.

Ethereum — это еще одна раз­но­вид­ность блок­чей­на. Эту тех­но­ло­гию пред­ло­жил 19-лет­ний рос­сий­ско-ка­над­ский про­грам­мист Ви­та­лий Бу­те­рин в 2013 году. Ethereum от­ли­ча­ет­ся от ори­ги­наль­но­го блок­чей­на тем, что он пред­на­зна­чен для со­зда­ния де­цен­тра­ли­зо­ван­ных при­ло­же­ний. Как ска­зал Бу­те­рин при пре­зен­та­ции про­ек­та в 2014 году, эти при­ло­же­ния поз­во­ля­ют поль­зо­ва­те­лям на­пря­мую вза­и­мо­дей­ство­вать друг с дру­гом, а не про­хо­дить через по­сред­ни­ков.

Под­рыв­ные ин­но­ва­ции — это тех­но­ло­гии из­ме­ня­ющие со­от­но­ше­ние цен­но­стей и ме­ня­ющие функ­ци­о­ни­ро­ва­ние самой среды финансовых операций. Хотя этот тер­мин из­на­чаль­но не при­над­ле­жит об­ла­сти фин­те­ха, он часто ис­поль­зу­ет­ся для опи­са­ния со­бы­тий в сфере фи­нан­со­в, когда тех­но­ло­ги­че­ские раз­ра­бот­ки за­став­ля­ют фи­нан­со­вые учре­жде­ния пе­ре­смот­реть свой образ дей­ствий.

Ре­гу­ли­ру­ю­щая тех­но­ло­гия (рег­тех) — это тех­но­ло­гия, ко­то­рая по­мо­га­ет в от­рас­ли фи­нан­со­в со­от­вет­ство­вать пра­ви­лам со­блю­де­ния фи­нан­со­вых обя­за­тельств. Один из ос­нов­ных при­о­ри­те­тов рег­те­ха — ав­то­ма­ти­за­ция и оциф­ров­ка пра­вил борь­бы с намеренными искажениями  со стороны пользователей.

Акселераторы финансовых моделей — альтернативные решения позволяющие решать задачи с учетом признания наличия большого количества препятствий мешающих решать задачи в короткий срок, а также наличие предварительно-проводимой системной работы по устранению возможных препятствий

Ро­босо­вет­ни­ки — это плат­фор­мы, ко­то­рые ав­то­ма­ти­зи­ру­ют  ре­ко­мен­да­ции, ис­поль­зуя фи­нан­со­вые ал­го­рит­мы.

Смарт-кон­трак­ты — это ком­пью­тер­ные про­грам­мы, ко­то­рые ав­то­ма­ти­че­ски вы­пол­ня­ют кон­трак­ты между по­ку­па­те­ля­ми и про­дав­ца­ми. Смарт-кон­трак­ты часто ос­но­ва­ны на блок­чейне и спо­соб­ны сэко­но­мить огром­ное ко­ли­че­ство вре­ме­ни и за­трат по срав­не­нию с тран­зак­ци­я­ми, ко­то­рые вы­пол­ня­ют­ся че­ло­ве­ком.

Многоканальный опыт — мобильная революция, доступность информации на различных устройствах.

Цифровая экономика — это система экономических, социальных и культурных отношений, основанных на использовании цифровых технологий. Иногда её называют интернет-экономикой, новой экономикой или веб-экономикой. Развитие цифровой экономики началось с цифровой революции.

Цифровая революция — это переход от механической и аналоговой электронной технологии к цифровой электронике, которая появилась в конце 1950-х годов.

Сквозные технологии цифровой экономики — являются большие данные, нейротехнологии, искусственный интеллект, системы распределённого реестра (блокчейн), квантовые технологии, новые производственные технологии, промышленный интернет, робототехника, сенсорика, беспроводная связь, виртуальная и дополненная реальности.

Data Science — методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных.

Data mining интеллектуальный анализ данных — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

СППР ( системы поддержки принятия решений )– это интерактивная информационная система, в которой используются модели выбора решений, пользователям обеспечивается удобный и эффективный доступ к централизованным и распределенным информационным ресурсам и предоставляются широкие возможности по переработке и отображению информации.

Алгоритмическая система – набор средств и понятий, позволяющих строить некоторое множество алгоритмов для решения определенного класса задач.

Алгоритмические стратегии (модели) — объединенные в различающиеся группы алгоритмические системы, использующие общие принципы построения или схожие алгоритмы работы.

Большие данные (англ. big data) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми (scale-out) программными инструментами.

АЛГОРИТМЫ АНАЛИТИЧЕСКОГО УПРАВЛЕНИЯ (МОДЕЛЬНЫЕ СИСТЕМЫ)

— Алгоритмическая система – набор средств и понятий, позволяющих строить некоторое множество алгоритмов для решения определенного класса задач. Алгоритмическая система определяется наличием четырех составляющих ее частей:

1) множеством входных объектов или исходных данных, подлежащих обработке алгоритмами данной системы;

2) множеством выходных объектов или результатов выполнения алгоритмов данной системы;

3) системой команд исполнителя, то есть набором тех действий, которые может выполнять исполнитель, и которые можно описывать в нормативных документах, что собственно является ориентацией алгоритмической системы на конкретного исполнителя;

4) языком описания алгоритмов – языком исполнителя; язык, на котором описан алгоритм, должен быть понятен исполнителю и не должен включать в свой состав указания на невозможные для исполнителя действия, а также обращения к входным или выходным объектам, не принадлежащих к множеству входных или выходных объектов данной алгоритмической системы.

— Алгоритмические стратегии (модели)

Несмотря на все многообразие существующих алгоритмических стратегий, некоторые из них используют общие принципы построения или схожие алгоритмы работы, что позволяет объединять их в различные группы. С точки зрения конечной цели можно выделить две большие категории: экзекьюшн-стратегии (от англ. execution — исполнение) и спекулятивные стратегии ( в сфере государственных финансов неприменимы).

Экзекьюшн-стратегии

Существует три наиболее распространенных алгоритма, используемых в экзекьюшн стратегиях:

Алгоритм Iceberg (адаптировано из биржевого алгоритма, когда все и сразу…) — подразумевает исполнение общего объёма ( разновидности межбюджетных перечислений выраженные в суммовом выражении) посредством выставления условий получения с суммарным объёмом, не превышающим заданное «видимое» количество. Это существенно повышает эффективность алгоритма, поскольку для его реализации достаточно выставить лишь одну заявку на получение, которая будет исполнена гораздо быстрее, чем несколько последовательно выставленных заявок.

Алгоритм TWAS (англ. Time Weighted Average Sum — взвешенная по времени средний объем межбюджета или равномерно несколькими частями в течении года) — подразумевает равномерное исполнение общего объёма межбюджета за заданное число итераций в течение определенного промежутка времени, посредством выставления заявок, скорректированных на заданную величину процентного отклонения от необходимых требований.

Алгоритм VWAS (англ. Volume Weighted Average Sum — взвешенный по сумме средний объем) — подразумевает равномерное исполнение общего объёма межбюджета за заданное число итераций в течение определенного промежутка времени, посредством выставления заявок, скорректированных на нормативно заданную величину процентного отклонения от необходимых требований, но не превышающих средневзвешенное перечисление по региону, рассчитанную с момента запуска алгоритма.

Модельная стратегия должна включать в себя необходимое и достаточное условие обратимости алгоритма моделирования

ПОДДЕРЖКА УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ

Термин «поддержка решений» впервые появился в зарубежной литературе в начале 1970-х гг. А. Горрии М. Мортон выделили СППР (DecisionSupportedSystem –DSS) в самостоятельный класс АИС, обеспечивающих решение руководителями неструктурированных проблем (долгосрочное прогнозирование, планирование научно-технических разработок и т.п.).

Сегодня СППР ( системы поддержки принятия решений )– это интерактивная информационная система, в которой используются модели выбора решений, пользователям обеспечивается удобный и эффективный доступ к централизованным и распределенным информационным ресурсам и предоставляются широкие возможности по переработке и отображению информации.

Концепция поддержки принятия решений имеет ряд особенностей. Во-первых, идея поддержки принятия решений имеет гораздо меньше притязаний, чем в идее оптимизации решений: руководитель принимает наиболее пригодное (а не лучшее, как в случае оптимизации) решение, опираясь на поддержку подчиненных, каждый из которых на своем месте, возможно, принимает и оптимальные решения. Во-вторых, инициатором поддержки всегда является сам руководитель при возникновении у него такой необходимости. И, наконец, организуя поддержку своей деятельности и контролируя ее ход, руководитель в большинстве случаев использует диалоговой режим.

Основание составляют информационные системы, с помощью которых сотрудники-исполнители занимаются операционной обработкой данных, а управленцы низшего звена — оперативным управлением. Наверху пирамиды на уровне стратегического управления информационные системы изменяют свою роль и становятся стратегическими, поддерживающими деятельность управленцев высшего звена по принятию решений в условиях плохой структурированности поставленных задач.

Категории систем, сопровождающих каждый организационный уровень и их значение:

  • на эксплуатационном уровне: системы диалоговой обработки запросов – Transaction Processing Systems (TPS);
  • на уровне знаний: системы работы знания – Knowledge Work System (KWS) и системы автоматизации делопроизводства – Office Automation Systems (OAS);
  • на стратегическом уровне: исполнительные системы поддержки выполнения – Executive Support Systems (ESS);
  • на управленческом уровне: управляющие информационные системы – Management Information Systems (MIS) и системы поддержки принятия решений – Decision Support Systems (DSS).

Внутри каждого из этих уровней принятия решений руководители классифицируют решения как структурированные и неструктурированные. Неструктурированные решения — те, в которых принимающий решение должен обеспечить суждение, оценку и проникновение в прикладную область. Каждое из этих решений оригинально, важно, не имеет аналогов или разработанной методики для их принятия. Структурированные решения — наоборот, являются повторяемыми и обычными и имеют определенную процедуру для их принятия, чтобы они не рассматривались каждый раз, как новые. Некоторые решения слабоструктурованны — в таких случаях только часть проблемы имеет четкий ответ, обеспеченный в соответствии с принятой процедурой.

Операционный уровень управления обеспечивает решение многократно повторяющихся задач и операций и быстрое реагирование на изменения входной текущей информации. На этом уровне достаточно велики как объем выполняемых функциональных операций, так и динамика принятия управленческих решений. Этот уровень управления часто называют оперативным — из-за необходимости быстрого реагирования на изменение ситуации.

Системы эксплуатационного уровня, к которым относятся системы диалоговой обработки запросов (TPS) – это деловые системы, которые обслуживают эксплуатационный уровень организации (бухгалтерская ИС, ИС казначейских счетов, ИС обработки госзаказов, и т.д.).  Системы этого типа выполняют и рассчитывают рутинные транзакции, необходимые для проведения процесса. Основная цель систем на этом уровне состоит в том, чтобы ответить на обычные вопросы и проводить потоки транзакций через организацию. Чтобы отвечать на эти виды вопросов, информация вообще должна быть легко доступна, оперативна и точна.

На эксплуатационном уровне задачи, ресурсы и цели предопределены и высокоформализованы. Например, решение о проведении платежа принимается управляющим низшего уровня согласно предопределенным критериям. Единственно, что должно быть определено — соответствие критериям.

Информационные системы работников знаний и данных помогают специалистам, работающим с данными, повышают продуктивность и производительность работы. Задача подобных информационных систем — интеграция новых сведений в организацию и помощь в обработке бумажных документов.

По мере того как индустриальное общество трансформируется в информационное, производительность экономики все больше будет зависеть от уровня развития этих систем.

В этом классе информационных систем можно выделить две группы:

  • информационные системы обработки знаний;
  • информационные системы автоматизации делопроизводства (офисной автоматизации).

Информационные системы знаний (KWS), в том числе и экспертные системы, поддерживают работников знания и обработчиков данных в организации. Они вбирают в себя знания, необходимые сотрудникам для разработки нового расчета бюджета. Их работа заключается в создании новой информации и нового знания.

Системы автоматизации делопроизводства (OAS) вследствие своей простоты и многопрофильности активно используются работниками любого организационного уровня. Наиболее часто их применяют работники средней квалификации: бухгалтеры, секретари. Основная цель — обработка данных, повышение эффективности их работы и упрощение канцелярского труда.

ИС офисной автоматизации связывают воедино работников информационной сферы в разных регионах и помогают поддерживать связь с другими организациями. Их деятельность в основном охватывает управление документацией, коммуникации, составление расписаний и т.д. Эти системы выполняют следующие функции:

  • обработка текстов на компьютерах с помощью различных текстовых процессоров;
  • производство высококачественной печатной продукции;
  • архивация документов;
  • электронные календари и записные книжки для ведения деловой информации;
  • электронная и аудиопочта;
  • видео- и телеконференции.

Тактический уровень обеспечивает решение задач, требующих предварительного анализа большого количества разнородной информации, поступающей с верхнего и нижнего уровней. На этом уровне особое значение приобретает такая функция управления, как анализ. Объем решаемых задач уменьшается, но возрастает их сложность и ответственность за результаты. При этом не всегда удается выработать нужное решение оперативно — требуется дополнительное время на осмысление, сбор недостающих сведений и т. п.

Системы управленческого уровня разработаны, чтобы обслуживать контроль, управление, принятие решений и административные действия средних менеджеров. На этом уровне иногда выделяют два типа информационных систем: управленческие (для менеджмента) и системы поддержки принятия решений.

Управленческие информационные системы (MIS) имеют крайне небольшие аналитические возможности. Они обслуживают управленцев, которые нуждаются в ежедневной, еженедельной информации о состоянии дел. Основное их назначение состоит в отслеживании ежедневных операций в фирме и периодическом формировании строго структурированных сводных типовых отчетов. Информация поступает из информационной системы операционного уровня.

Характеристики управленческих информационных систем:

  • используются для поддержки принятия решений структурированных и частично структурированных задач на уровне контроля за операциями;
  • ориентированы на контроль, отчетность и принятие решений по оперативной обстановке;
  • опираются на существующие данные и их потоки внутри организации;
  • имеют малые аналитические возможности и негибкую структуру.

Системы этого уровня определяют, хорошо ли работают объекты, и периодически извещают об этом.

Системы поддержки принятия решений (DSS) обслуживают частично структурированные задачи, результаты которых трудно спрогнозировать заранее. Они имеют более мощный аналитический аппарат с несколькими моделями. Информацию получают из управленческих и операционных информационных систем. Используют эти системы все, кому необходимо принимать решение: менеджеры, специалисты, аналитики и пр. Например, их рекомендации могут пригодиться при принятии решения покупать или взять оборудование в аренду и пр.

Характеристики систем поддержки принятия решений;

  • обеспечивают решение проблем, развитие которых трудно прогнозировать;
  • оснащены сложными инструментальными средствами моделирования и анализа;
  • позволяют легко менять постановки решаемых задач и входные данные;
  • отличаются гибкостью и легко адаптируются к изменению условий по несколько раз в день;
  • имеют технологию, максимально ориентированную на пользователя.

Стратегический уровень обеспечивает выработку управленческих решений, направленных на достижение долгосрочных стратегических целей организации. Результаты принимаемых решений проявляются спустя длительное время (месяцы, годы).

Классификация видов управленческих решений

Решения по объекту управления (по кругу лиц) зависят от того, кому поручается их выполнение. Так объектом, для которого выработано управленческое решение, могут быть отрасль, как макросистема в целом, организация или ее подразделение, как микросистема, а также подсистемы соответствующих систем вплоть до отдельных исполнителей.

Решения по предмету (содержанию) классифицируются на организационные, технические, экономические, социальные, которые вырабатываются в процессе функционирования систем.

Решения по времени делятся на перспективные (стратегические) на год и более лет, текущие — до года, квартал и оперативные — месяц, неделя, сутки.

По степени формализации решения подразделяются на формализуемые и неформализуемые. К формализуемым относятся стандартные решения, выработка которых может осуществляться по определенному, один раз составленному алгоритму, во многих случаях запрограммированному и выполняемому, как правило, с использованием вычислительной техники. К неформализуемым относятся нестандартные решения, требующие каждый раз творческого подхода, например назначение мер морального поощрения за высокие показатели работы.

Решения по степени самостоятельности подразделяются на принимаемые: самостоятельно, во исполнение указаний вышестоящего органа управления и по инициативе нижестоящих подразделений предприятия.

Решения по степени обязательности делятся на обязательные и рекомендательные. Обязательные — это законы, директивы, приказы, то есть решения, оформленные правовыми актами, имеющими императивный характер, то есть те которые не могут быть изменены по соглашению сторон. Рекомендательные решения носят скорее диспозитивный характер и не являются строго обязательными к исполнению.

BIG DATA

Большие данные (англ. big data) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми (scale-out) программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объём данных, и вытекающих из этого трансформационных последствий.

Большие данные предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Если добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.

В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Более краткая формулировка: Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности.

DATA SCIENCE

Предполагаемые для применения методы статистического моделирования:

Spatial ModelsПространственные модели. Пространственная зависимость — это совместное изменение свойств внутри географического пространства: характеристики в ближайших местах, по-видимому, коррелированы, как положительно, так и отрицательно. Пространственная зависимость приводит к проблеме пространственной автокорреляции в статистике, поскольку, подобно временной автокорреляции, это нарушает стандартные статистические методы, которые допускают независимость от наблюдений.

Time SeriesВременные ряды. Методы анализа временных рядов можно разделить на два класса: методы частотной области и методы во временной области. Первые включают спектральный анализ и недавно вейвлет-анализ; последние включают автокорреляцию и анализ взаимной корреляции. Во временной области корреляционные анализы могут выполняться по-подобному фильтру с использованием масштабированной корреляции, тем самым уменьшая необходимость работы в частотной области.

Кроме того, методы анализа временных рядов можно разделить на параметрические и непараметрические. Параметрические подходы предполагают, что основной стационарный стохастический процесс имеет определенную структуру, которая может быть описана с использованием небольшого числа параметров (например, с использованием модели авторегрессии или скользящей средней). В этих подходах задача состоит в оценке параметров модели, описывающей стохастический процесс. Напротив, непараметрические подходы явно оценивают совариацию или спектр процесса, не предполагая, что процесс имеет какую-либо конкретную структуру.
Методы анализа временных рядов также можно разделить на линейные и нелинейные, одномерные и многомерные.

Survival Analysis Анализ выживания представляет собой отрасль статистики для анализа ожидаемой продолжительности времени до тех пор, пока не произойдет одно или несколько событий, таких как отказ в механических системах. Этот вопрос называется теорией надежности или анализом надежности в области проектирования, анализа продолжительности или моделирования продолжительности в экономике и анализом истории событий в социологии. Анализ выживания пытается ответить на такие вопросы, как: Можно ли принимать во внимание несколько причин неудачи? Как особые обстоятельства или характеристики увеличивают или уменьшают вероятность выживания той или иной экономической модели?

Recommendation SystemsРекомендация системы или системы рекомендаций (иногда заменяющие «систему» синонимом, таким как платформа или движок) являются подклассом системы фильтрации информации, которая стремится предсказать «рейтинг» или «предпочтение», которые пользователь дал бы элементу.

Association Rule LearningОбучение правилам ассоциации — это метод обнаружения интересных связей между переменными в больших базах данных. Например, при обнаружении мошенничества правила ассоциации используются для обнаружения шаблонов, связанных с мошенничеством. Анализ связей выполняется для выявления дополнительных случаев мошенничества: если транзакция платежа от пользователя A была использована для совершения мошеннической покупки у поставщика B, путем анализа всех транзакций поставщика B, мы могли бы найти другого пользователя C с мошеннической деятельностью.

ScoringМодель оценки — это особый вид прогнозирующих моделей. Предиктивные модели могут прогнозировать дефолт по кредитным платежам. Модели с подсчетом обычно используют логарифмическую шкалу (каждые 50 баллов в вашем счете уменьшают риск дефолта на 50%) и основаны на логистической регрессии и деревьях принятия решений или комбинации нескольких алгоритмов. Технология оценки обычно применяется к транзакционным данным, иногда в режиме реального времени (обнаружение мошенничества с кредитными картами, мошенничество с кликами).

Predictive ModelingПредиктивное моделирование использует статистику для прогнозирования результатов. Чаще всего событие, которое нужно предсказать, в будущем, но предсказательное моделирование может применяться к любому типу неизвестного события, независимо от того, когда оно произошло. Например, прогностические модели часто используются для выявления преступлений и выявления подозреваемых после совершения преступления.  Нейронные сети, линейная регрессия, деревья решений  — это некоторые из методов, используемых для прогнозирования. Они связаны с созданием набора тренировок, кросс-валидации и подгонки моделей.

ClusteringКластерный анализ или кластеризация — задача группировки набора объектов таким образом, что объекты в одной и той же группе (называемые кластером) более схожи (в том или ином смысле) друг с другом, чем с другими группами (кластерами). Это основная задача поискового анализа данных и общий метод анализа статистических данных, используемый во многих областях, включая машинное обучение.
В отличие от контролируемой классификации (ниже), кластеризация не использует обучающие наборы. Хотя есть некоторые гибридные реализации, называемые полуконтролируемым обучением.

Supervised ClassificationКонтролируемая классификация, также называемая контролируемым обучением, — это задача машинного обучения выведения функции из помеченных данных обучения. Данные обучения состоят из набора примеров обучения. В контролируемом обучении каждый пример представляет собой пару, состоящую из входного объекта (обычно вектора) и желаемого выходного значения (также называемого меткой, классом или категорией). Контролируемый алгоритм обучения анализирует данные обучения и выдает предполагаемую функцию, которая может использоваться для сопоставления новых примеров. Оптимальный сценарий позволит алгоритму правильно определять метки классов для невидимых экземпляров.

Extreme Value TheoryТеория экстремальных значений или анализ экстремальных значений (EVA) — это ветвь статистики, касающаяся крайних отклонений от медианы вероятностных распределений. Он стремится оценить из заданного упорядоченного образца данной случайной величины вероятность событий, которые являются более экстремальными, чем любые ранее наблюдаемые. Например, наводнения, которые происходят один раз каждые 10, 100 или 500 лет. Эти модели плохо работают в последнее время, чтобы предсказать катастрофические события, что привело к огромным потерям для страховых компаний.

SimulationsМоделирование методом Монте-Карло используется во многих контекстах: для создания высококачественных псевдослучайных чисел в сложных настройках, таких как многослойные пространственно-временные иерархические байесовские модели, для оценки параметров, для вычисления статистики, связанной с очень редкими событий или даже для генерации большого количества данных (например, кросс-и автокоррелированных временных рядов) для тестирования и сравнения различных алгоритмов, особенно для торговли акциями или в технике.

Optimum BiddingОптимальные ставки.  Это пример автоматической, черной коробки, системы связи «машина-машина», иногда работающей в режиме реального времени, через различные API. Это подкрепляется статистическими моделями. Приложения включают обнаружение и покупку правильных ключевых слов по правильной цене в Google AdWords на основе ожидаемых коэффициентов конверсии для миллионов ключевых слов, большинство из которых не имеют исторических данных; ключевые слова классифицируются с использованием алгоритма индексации и агрегированы в ковши (категории), чтобы получить статистические данные со статистической значимостью на уровне ковша. 

IndexationИндексация. Любая система, основанная на таксономии, использует алгоритм индексации, созданный для построения и поддержания таксономии. Например, обзоры продуктов (как продукты, так и рецензенты должны быть классифицированы с использованием алгоритма индексации, затем сопоставлены друг с другом), алгоритмы подсчета, чтобы выявлять лучших людей, которых следует придерживаться в определенном домене, управление цифровым контентом и, конечно же, технологию поисковых систем. Индексация — очень эффективный алгоритм кластеризации, и время, используемое для индексации огромного количества контента, растет линейно — это очень быстро — с размером вашего набора данных. В принципе, он опирается на несколько сотен категорий, выбранных вручную после разбора тонны документов, извлечения миллиардов ключевых слов, фильтрации их, создания таблицы частот ключевых слов и фокусировки на ключевых словах. И последнее, но не менее важное: алгоритм индексации может использоваться для автоматического создания индекса для любого документа — отчета, статьи, блога, веб-сайта, хранилища данных, метаданных, каталога или книги.

Search Engines —  Технология поисковых систем в значительной степени зависит от статистического моделирования. Основным алгоритмом, используемым в любой поисковой системе, является система индексирования или автоматической маркировки.

Queuing SystemsСистемы массового обслуживания. Система управления очередями используется для управления очередями процессов. Конструкция формирования и распространения очереди определяется как теория массового обслуживания.

Заблуждения из data science

  1. Корреляция = причинность. Большие данные = информация и инсайды, потому что контекст не имеет значения.
  2. Ошибка базового процента (игнорирование базового уровня) актуальна только для малых выборок.
  3. Драгирование данных (data dredging) отрицательно коррелирует с размером совокупности данных, т.е. количество ложных корреляций уменьшается с ростом размерности набора данных.
  4. В науке о данных прошлое предопределяет будущее. Предположения при моделировании могут быть приняты за правду в последней инстанции после проведения эксперимента, а величины распределены нормально, если не указано иное.
  5. Тестирование гипотез и случайная выборка при планировании эксперимента не являются обязательными. Безусловно, данные в реальном мире не имеют «утечек» при проведении кросс-валидации.
  6. Экстраполяция за пределы диапазона обучающих данных, особенно в случае временных рядов, отлично описывает данные, если выборка достаточно велика.
  7. Сильные признаки (основания) — это тоже самое, что и доказательство. Интервалы прогнозирования и доверительные интервалы одно и то же, так же, как статистическая значимость и практическая значимость.
  8. Выбранная система мер (измерений) не изменит всю систему. Увеличение числа признаков повышает значимость и точность модели.
  9. Переобучение/дообучение модели может быть проведено независимо от компромисса между смещением и дисперсией.
  10. Переименование аналитического департамента в департамент Data Science даст вашей компании существенный рост и новые прорывные технологии уже на следующий день.

Причины ошибок алгоритмов аналитического моделирования.

Мы часто слышим о том, как очередной сложный алгоритм начал ошибаться или стал следовать предрассудкам, которым машины не должны быть подвержены. Почему так происходит?

Из-за чего появляются эти ложные положительные и отрицательные ответы и так ли это важно? Для начала давайте определим три термина из Матрицы смешения: точность, возврат и правильность.

Точность

Точность – это процент верно классифицированных положительных ответов. При высокой точности алгоритм правильно размечает максимальное количество верных элементов.

В ситуации, когда время настолько ценно, нужно минимизировать количество ложных негативных откликов. Точно так же, если в системе произойдет сбой, лучше иметь точную модель, чтобы:

  • устранить проблему,
  • организовать поиск причины так, чтобы не отрывать сотрудников от исполнения их текущих обязанностей.

Возврат

В свою очередь, возврат – это доля в процентах возвращенных релевантных элементов.
В идеале возврат равен единице. В этом случае нас ждут проблемы, и пользователям придется вручную копаться в нерелевантных результатах поиска.

Правильность

Правильность – это доля верных предсказаний от общего количества элементов в процентах. Правильность плохо служит в качестве показателя качества работы модели, особенно если классы разбалансированы. Чтобы работа с точностью, возвратом, правильностью и матрицами смешения имела смысл,  данные должны содержать достоверную информацию, и тогда модель сможет обучиться правильно.

Матрицы смешения

Матрицы смешения – это основа матриц эффективности затрат, то есть итоговой стоимости. Для финансов этот термин понять легко на примере анализа доходов и расходов. Думаю, в случае с дискриминацией одного класса относительно другого все будет сложнее.

Ошибки алгоритмов, вызванные исходными данными

Крупнейший по объему этап работы – это сбор и очищение данных, на которых будет учиться модель. Преобразование данных – это не так уж интересно, и постоянно думать о формировании отчетов, выборок и распределении генеральной совокупности может быть скучным и утомительным делом. Однако затем из-за таких упущений при обработке данных и появляются ошибки алгоритмов.

Как бороться с ошибками алгоритмов аналитического моделирования

Если нам предстоит разрабатывать аналитические модели, то появляется практический инструмент борьбы с предрассудками, победить которые люди не в состоянии. Некорректные алгоритмы оценки появляются из-за обучения моделей по наборам данных, уже содержащим эти перекосы вследствие исторических причин. Это можно исправить, если работать с исторически сложившимися предрассудками учетных операций.

Данные, которые содержатся в моделях с подкреплением, могут привести к резкому улучшению или ухудшению результатов. Экспоненциальный рост или падение качества может привести к большей эффективности.

«Почему алгоритмические модели начинают ошибаться? Мы учим их этому, используя ошибочные понимание реальности.»

2018-2022

Лицензия Creative Commons
Это произведение, автор которого — Aleksei Prytkov(Алексей Прытков), доступно на условиях лицензии Creative Commons С указанием авторства-Некоммерческая-С сохранением условий 4.0 Всемирная.