Машинско учење без надзора: шта је, алгоритми, пример

Шта је учење без надзора?

Учење без надзора је техника машинског учења у којој корисници не морају да надзиру модел. Уместо тога, омогућава моделу да самостално ради на откривању образаца и информација које су претходно биле неоткривене. Углавном се бави неозначеним подацима.

Алгоритми учења без надзора

Алгоритми учења без надзора омогућавају корисницима да обављају сложеније задатке обраде у односу на учење под надзором. Иако учење без надзора може бити непредвидивије у поређењу са другим природним методама учења. Алгоритми учења без надзора укључују груписање, откривање аномалија, неуронске мреже итд.

У овом водичу ћете научити:

Пример ненадгледаног машинског учења

Узмимо пример учења без надзора за бебу и њеног породичног пса.

Она познаје и идентификује овог пса. Неколико недеља касније, породични пријатељ доводи пса и покушава да се игра са бебом.

Беба није раније видела овог пса. Али препознаје многе особине (2 уха, очи, ходање на 4 ноге) попут свог кућног љубимца. Она идентификује нову животињу као пса. Ово је учење без надзора, где вас не уче, већ учите из података (у овом случају података о псу). надзирано учење , породични пријатељ би рекао беби да је то пас као што је приказано у горњем примеру учења без надзора.

Зашто учење без надзора?

Ево главних разлога за коришћење учења без надзора у машинском учењу:

  • Машинско учење без надзора проналази све врсте непознатих образаца у подацима.
  • Методе без надзора помажу вам да пронађете функције које могу бити корисне за категоризацију.
  • Одвија се у реалном времену, тако да се сви улазни подаци анализирају и означе у присуству ученика.
  • Лакше је добити неозначене податке са рачунара него означене податке, за шта је потребна ручна интервенција.

Врсте груписања алгоритама учења без надзора

Испод су типови груписања алгоритама ненадзираног машинског учења:

Проблеми учења без надзора даље су груписани у проблеме груписања и повезивања.

Груписање

Груписање

Груписање је важан концепт када је у питању учење без надзора. Углавном се бави проналажењем структуре или обрасца у збирци некатегорисаних података. Алгоритми груписања учења без надзора ће обрадити ваше податке и пронаћи природне групе (групе) ако постоје у подацима. Такође можете изменити колико кластера ваши алгоритми треба да идентификују. Омогућава вам да прилагодите грануларност ових група.

Можете користити различите врсте груписања:

Ексклузивно (партиционисање)

У овој методи груписања, подаци су груписани на такав начин да један податак може припадати само једној групи.

Пример: К-значи

Агломеративно

У овој техници груписања, сви подаци су кластери. Понављајући синдикати између два најближа кластера смањују број кластера.

Пример: Хијерархијско груписање

Преклапање

У овој техници, нејасни скупови се користе за груписање података. Свака тачка може припадати два или више кластера са различитим степенима чланства.

Овде ће подаци бити повезани са одговарајућом вредношћу чланства. Пример: Нејасни Ц-знаци

Пробабилистиц

Ова техника користи расподелу вероватноће за креирање кластера

Пример: Следеће кључне речи

  • 'мушке ципеле.'
  • 'женске ципеле.'
  • 'женска рукавица.'
  • 'мушка рукавица.'

могу се груписати у две категорије „ципела“ и „рукавица“ или „мушкарац“ и „жене“.

Врсте груписања

Следе типови груписања машинског учења:

  • Хијерархијско груписање
  • К-значи груписање
  • К-НН (к најближих суседа)
  • Главни анализа компоненти
  • Декомпозиција сингуларне вредности
  • Анализа независних компоненти

Хијерархијско груписање

Хијерархијско груписање је алгоритам који гради хијерархију кластера. Почиње са свим подацима који су додељени сопственој групи. Овде ће два блиска кластера бити у истом кластеру. Овај алгоритам се завршава када остане само једна група.

К-значи Груписање

К значи да је то итеративни алгоритам груписања који вам помаже да пронађете највећу вредност за сваку итерацију. У почетку се бира жељени број кластера. У овој методи груписања, морате да групишете тачке података у к група. Већи к значи мање групе са већом грануларношћу на исти начин. Мањи к значи веће групе са мање гранулације.

Резултат алгоритма је група ознака. Он додељује тачку података једној од к група. У к-значи груписању, свака група је дефинисана стварањем центроида за сваку групу. Центроиди су попут срца кластера, који хвата тачке које су им најближе и додаје их кластеру.

К-средње груписање даље дефинише две подгрупе:

  • Агломеративно груписање
  • Дендрограм

Агломеративно груписање

Ова врста К-значи груписања почиње са фиксним бројем кластера. Он распоређује све податке у тачан број кластера. Ова метода груписања не захтева број кластера К као улаз. Процес агломерације започиње формирањем сваког податка као једне групе.

Ова метода користи неку меру удаљености, смањује број кластера (по један у свакој итерацији) процесом спајања. На крају, имамо једну велику групу која садржи све објекте.

Дендрограм

У методи груписања Дендрограм, сваки ниво ће представљати могући кластер. Висина дендрограма показује ниво сличности између два спојена кластера. Што су ближе дну процеса, они су сличнији кластер што је налаз групе из дендрограма који није природан и углавном је субјективан.

К- Најближи суседи

К- најближи сусед је најједноставнији од свих класификатора машинског учења. Разликује се од других техника машинског учења по томе што не производи модел. То је једноставан алгоритам који складишти све доступне случајеве и класификује нове инстанце на основу мере сличности.

Врло добро функционише када постоји растојање између примера. Брзина учења је спора када је сет за обуку велики, а израчунавање удаљености је невиђено.

Анализа главних компоненти

У случају да желите простор веће димензије. Морате изабрати основу за тај простор и само 200 најважнијих резултата те основе. Ова база је позната као главна компонента. Подгрупа коју одаберете представља нови простор мале величине у поређењу са оригиналним простором. Одржава што је могуће сложеније податке.

Удружење

Правила придруживања вам омогућавају да успоставите асоцијације међу објектима података унутар великих база података. Ова техника без надзора говори о откривању занимљивих односа између променљивих у великим базама података. На пример, људи који купују нови дом највероватније ће купити нови намештај.

Други примери:

  • Подгрупа пацијената оболелих од рака груписана према мерењима експресије гена
  • Групе купаца засноване на историји прегледавања и куповине
  • Филмска група према оцени коју су дали гледаоци филмова

Надзирано насупрот машинског учења без надзора

Ево главне разлике између Надгледано учење без надзора :

Параметри Надгледана техника машинског учења Техника машинског учења без надзора
Унос податакаАлгоритми се обучавају помоћу означених података.Алгоритми се користе против података који нису означени
Рачунарска сложеностУчење под надзором је једноставнија метода.Учење без надзора рачунарски је сложено
ТачностИзузетно тачна и поуздана метода.Мање тачна и поуздана метода.

Примене ненадгледаног машинског учења

Неке примене техника учења без надзора су:

  • Груписање аутоматски дели скуп података у групе на основу њихових сличности
  • Откривање аномалија може открити необичне тачке података у вашем скупу података. Корисно је за проналажење лажних трансакција
  • Рударство асоцијација идентификује скупове ставки које се често појављују заједно у вашем скупу података
  • Латентни променљиви модели се широко користе за предпроцесирање података. Као што је смањење броја функција у скупу података или разлагање скупа података на више компоненти

Недостаци учења без надзора

  • Не можете добити прецизне информације о сортирању података, а излаз као подаци који се користе у учењу без надзора означен је и није познат
  • Мања тачност резултата је зато што улазни подаци нису познати и људи их не означавају унапред. То значи да машина то сама мора да уради.
  • Спектралне класе не одговарају увек информационим класама.
  • Корисник треба да проведе време тумачећи и означи класе које следе ту класификацију.
  • Спектрална својства класа такође се могу мењати током времена тако да не можете имати исте информације о класи док се крећете са једне слике на другу.

Резиме

  • Учење без надзора је техника машинског учења, где не морате да надзирете модел.
  • Машинско учење без надзора помаже вам да пронађете све врсте непознатих образаца у подацима.
  • Груписање и удруживање су две врсте учења без надзора.
  • Четири врсте метода груписања су 1) искључива 2) агломеративна 3) преклапајућа 4) вероватноћа.
  • Важни типови груписања су: 1) Хијерархијско груписање 2) К-значење 3) К-НН 4) Анализа главних компоненти 5) Декомпозиција сингуларне вредности 6) Анализа независних компоненти.
  • Правила придруживања вам омогућавају да успоставите асоцијације међу објектима података унутар великих база података.
  • У Надзираном учењу, Алгоритми се обучавају помоћу означених података, док се у Ненадгледаном учењу Алгоритми користе према подацима који нису означени.
  • Откривање аномалија може открити важне тачке података у вашем скупу података које су корисне за проналажење лажних трансакција.
  • Највећи недостатак учења без надзора је то што не можете добити прецизне информације о сортирању података.