Расстояние между кластерами. Расстояние между объектами (метрика)

21.09.2019

Расстояния между различными объектами в пространстве.

1) Расстояние от точки до плоскости .

Найдем расстояние от т. М 0 (x 0 , y 0 , z 0) до плоскости Ax+By+Cz+D=0 . Расстояние от точки до плоскости - это длина перпендикуляра, опущенного из точки на плоскость. Проведем через М 0 прямую, перпендикулярную плоскости. т. N 0 – точка пересечения прямой и плоскости.

а) Составим параметрические уравнения прямой:

l= N= (A, B, C) ║прямой,

т. М 0 (x 0 , y 0 , z 0) Є прямой.

б) т. N 0 – общая для прямой и плоскости, поэтому подставим параметрические уравнения прямой в уравнение плоскости и найдем параметр, соответствующий т. N 0:

A(At+ x 0) + B(Bt+ y 0) + C(Ct+ z 0) + D=0;

(A 2 + B 2 + C 2)t+ Ax 0 + By 0 + Cz 0 + D=0;

,

координаты т. N 0 .

- расстояние от точки до плоскости .

2) Расстояние между двумя параллельными плоскостями.

На одной плоскости нужно взять произвольную точку и найти расстояние от этой точки до другой плоскости.

3) Расстояние между прямой и параллельной плоскостью.

На прямой нужно взять произвольную точку и найти расстояние от этой точки до плоскости.

а
α

4) Расстояние от точки до прямой.

т. М 0 (3, 1, -1), прямая
.

M 0
N 0
a
l
ρ

Проведем через т. М 0 плоскость, перпендикулярную прямой (проектирующая плоскость). Найдем точку пересечения прямой и плоскости.

а) Составим уравнение плоскости:

l= N= (1, 2, 0) ^ плоскости,

т. М 0 (3, 1, -1) Є плоскости.

A(x- x 0) + B(y- y 0) + C(z- z 0)= 0,

1(x- 3) + 2(y- 1) + 0(z+ 1)= 0,

x+ 2y- 5= 0 - уравнение плоскости.

б) Составим параметрические уравнения прямой:

в) т. N 0 – точка пересечения прямой и плоскости. Подставим параметрические уравнения прямой в уравнение плоскости.

(t+ 1)+ 2(2t- 1)- 5= 0, t+ 1+ 4t- 2- 5= 0, 5t- 6= 0, 5t= 6.

II . Урок изучения нового по теме: «Нахождение расстояний и углов в пространстве».

Учебная задача:

1) Привлечь учащихся к работе в группах

2) Формировать у учащихся познавательные и исследовательские умения

3) Провести аналогию с курсом планиметрии

Диагностируемые цели:

1) Имеет представление о расстояниях и углах между различными объектами в пространстве

2) Изображает расстояния и углы в простейших ситуациях

3) Осознает связь данного материала с курсом планиметрии.

Актуализация. Проходит в форме устного опроса, при этом повторяются следующие определения: расстояния между объектами, параллельных плоскостей, прямой параллельной плоскости, скрещивающихся прямых, угла между прямыми на плоскости, перпендикуляра, наклонной и ее проекции на плоскость; также определение двугранного угла и его линейного угла.

Мотивация. Учащиеся по аналогии с планиметрией предполагают существование углов и расстояний между объектами в пространстве.

    расстояние от точки до прямой,

    расстояние от точки до плоскости,

    расстояние между прямыми,

    угол между прямыми,

    угол между прямой и плоскостью,

    угол между плоскостями.

На подготовку группам отводится 10 мин. Во время выступления группы остальные конспектируют материал. Выступающая группа рассказывает теоретический материал, иллюстрируя его на графических и натуральных моделях.

Рефлексивно-оценочная часть. Проходит в форме устного опроса учащихся. Отвечают преимущественно те ученики, которые не готовили соответствующий вопрос. В конце урока выдается домашнее задание – выучить теоретический материал.

III . Итоговая контрольная работа.

Учебная задача:

    степень усвоения теорем-свойств и признаков изучаемых объектов и способов их доказательства

2) степень усвоения определений перпендикулярных прямых, перпенди кулярности прямой и плоскости

3) сформированность умений применять теоретические знания к решению дидактических задач

Диагностируемые цели:

Понимает уровень усвоения материала и уровень собственных умений

Контрольная работа.

1. Из точек А и В [М и К], лежащих в двух перпендикулярных плоскостей, проведены в них перпендикуляры АС и BD [МС и KD] к линии пересечения плоскостей. Найдите длину отрезка АВ , если АС = 12 см, BD = 15 см, СD = 16 см [если МС = 8 см, KD = 9 см, МК = 17 см].

2. Из середины М стороны AD квадрата ABCD проведен к его плоскости перпендикуляр МК, равный а3. Сторона квадрата равна 2а . [Из середины Е катета ВС прямоугольного треугольника АВС проведен к его плоскости перпендикуляр ЕМ, равный а5;  С = 90, АС = b , ВС = 4а ]. Найдите: а) площади треугольника АВК [АСК] и его проекции на плоскость квадрата [данного треугольника]; б) расстояние между прямыми АК и ВС [КЕ и АС].

Задача 1 сводится к решению прямоугольных треугольников, однако вид треугольника необходимо обосновать с помощью свойства перпендикулярных плоскостей (оно доказано в задаче №178).

Для успешного решения задачи 2 необходима сформированность умений находить проекцию треугольника на плоскость, решения прямоугольных треугольников. Для обоснования вида треугольника необходимо использовать теорему о трех перпендикулярах. Также нужно знать способы нахождения расстояния между скрещивающимися прямыми.

Конспект урока

Тема . Перпендикулярность прямых и плоскостей.

([Геометрия: Учебник для 10-11 классов сред. шк./ Л.С.Атанасян, В.Ф.Бутузов, С. Б. Кадомцев, Э.Г.Позняк. – М.: Просвещение], гл. II,17 уроков, урок 15)

Тип урока . Урок систематизации и обобщения.

Цели урока .

Учебная задача .

Выделить:

– пары объектов в пространстве, между которыми устанавливается отношение перпендикулярности, и охарактеризовать это отношение для различных пар (определение, признак, свойство);

– приемы (теоретический базис, эвристики) доказательства перпендикулярности двух прямых, прямой и плоскости, двух плоскостей;

– типы задач на вычисление и способы их решения.

Диагностируемые цели.

В результате ученик

знает :

– определение, признаки, свойства для каждой пары перпендикулярных объектов;

– что перпендикулярность двух прямых можно доказать с помощью определения перпендикулярных прямых, определения прямой, перпендикулярной к плоскости, леммы, теоремы о трех перпендикулярах и ей обратной;

– что перпендикулярность прямой и плоскости можно доказать с использованием признака перпендикулярности прямой и плоскости, теоремы о связи между параллельностью двух плоскостей и их перпендикулярностью к прямой, теоремы о свойствах перпендикулярных плоскостей;

– что перпендикулярность двух плоскостей можно доказать на основе определения перпендикулярных плоскостей, признака перпендикулярности двух плоскостей;

– обобщенный план решения задач на нахождение расстояний и углов;

умеет :

– доказывать перпендикулярность двух прямых, прямой и плоскости, двух плоскостей;

– находить расстояния от точки до прямой, от точки до плоскости;

– находить углы между прямыми, между наклонной к плоскости и плоскостью, между плоскостями, когда точки, прямые и плоскости задаются элементами треугольников (четырехугольников);

осознает :

– природу происхождения темы;

– роль аналогии и обобщения в получении новых знаний;

– значимость темы в курсе стереометрии, ее роль для дальнейшего построения курса;

Задача:

Дан равносторонний треугольник АВС, через середину О стороны АВ проведен перпендикуляр ОD к плоскости АВС, построены отрезки DА, DВ, DС, ОС.

АВ=6см, ОD=3см.

1. Найдите пары перпендикулярных прямых.

2. Найдите пары перпендикулярных прямой и плоскости.

3. Найдите пары плоскостей.

4. Найдите углы между DA, DB, DC и плоскостью ABC.

5. Найдите расстояния от точки D до плоскости АВС, от С до АDВ, от А до DОС.

6. Найдите расстояния от точки D до прямых АВ, ВС, АС.

7. Найдите линейные углы двугранных углов при ребрах АС и ВС.

Ход урока .

Деятельность учителя

Деятельность ученика

Мотивационно-ориентировочная часть

– Мы завершили изучение большой темы курса стереометрии «Перпендикулярность прямых и плоскостей». Как эта тема у нас появилась?

– Хорошо. В планиметрии мы изучали перпендикулярность прямых. А какие объекты могут быть перпендикулярны в пространстве?

– Да! Поэтому и тема называется «Перпендикулярность прямых и плоскостей».

– В планиметрии мы рассматривали различные случаи расположения двух прямых по наличию у них общих точек, в частности перпендикулярность прямых. По аналогии с изучением темы «Параллельность прямых и плоскостей», мы предположили, что аналогичные понятия можно ввести и в стереометрии.

– Перпендикулярными в пространстве могут быть две прямые, прямая и плоскость, две плоскости.

– Что же мы изучали в теме «Перпендикулярность прямых и плоскостей»?

– А какие задачи решали?

– Вы видите, какой это обширный материал, сколько в нем разных теорем, задач. На его рассмотрение мы потратили 14 уроков. Что нам предстоит сделать теперь?

– А что значит привести знания в систему?

– Правильно. А как будет звучать тема сегодняшнего урока?

– Хорошо. Цели мы уже сформулировали. Запишем тему.

–Определения перпендикулярности различных объектов, доказывали признаки и свойства перпендикулярности, способы нахождения расстояний и углов между прямыми, прямой и плоскостью, плоскостями.

– Доказывали перпендикулярность объектов, находили соответствующие расстояния и углы.

– Привести полученные знания и умения в систему и подготовиться к контрольной работе.

– Выделить основные понятия, установить взаимосвязь между ними, а также выделить основные типы задач и методы их решения.

– Перпендикулярность прямых и плоскостей.

– Перпендикулярность каких объектов мы изучили?

– Будем работать с таблицей.

< Открывает заголовок таблицы 1>

– Итак, в теме мы выделили три блока, связанные с перпендикулярностью. Вспомним, определение перпендикулярности каждой пары объектов и выделим способ доказательства перпендикулярности каждой пары. Какие прямые называются перпендикулярными?

– Как могут быть расположены перпендикулярные прямые в пространстве? < Открывает соответствующий рисунок>

– Какой теоретический факт, связанный с перпендикулярностью прямых мы изучали?

– Сформулируйте ее. < Открывает рисунок>

– Поговорим о перпендикулярности прямой и плоскости. Начнем с определения.

< Открывает рисунок>

– В этой части было доказано много теорем, подумайте, какие теоремы вы бы отнесли к ней. Называйте и формулируйте их.

<Открывает соответствующие рисунки>

– В эту часть мы отнесем теорему о трех перпендикулярах и обратную к ней.

А как вы думаете почему?

–Молодец! Рассмотрим последнюю часть. Какие две плоскости называются перпендикулярными?

–Какие факты можно отнести в эту часть?

– Правильно. Итак, тема «Перпендикулярность прямых и плоскостей» появилась по аналогии с темой «Перпендикулярность прямых на плоскости». Я напомню вам, что многие определения и теоремы вы формулировали сами по аналогии с известными определениями в планиметрии или обобщая их – заменяя прямые на плоскости, лучи на полуплоскости. При доказательстве теорем в каждом последующем блоке использовались теоремы предыдущего блока <показывает столбцы> и теоретические положения темы «Параллельность прямых и плоскостей». Однако и перпендикулярность работает на параллельность – мы получили новые свойства и признаки параллельности прямых и параллельности плоскостей. Посмотрите на рисунки 7 и 8. Например, сформулируйте признак параллельности прямых по рисунку 7.

–Хорошо. Продолжите предложение: «Две прямые в пространстве перпендикулярны, если …».

<Аналогичная работа проводится для оставшихся двух случаев>

– Перпендикулярность прямых, прямой и плоскости, двух плоскостей.

– Две прямые в пространстве называются перпендикулярными, если угол между ними равен 90 0 .

– Они могут пересекаться и скрещиваться.

– Лемму о перпендикулярности двух параллельных прямых третьей.

<Формулируют>

– Прямая называется перпендикулярной к плоскости, если она перпендикулярна к любой прямой, лежащей в этой плоскости.

– Признак перпендикулярности прямой и плоскости <формулирует>.

– Теорема о связи между параллельностью прямых и их перпендикулярностью к плоскости <формулирует>.

– Теорема о связи между параллельностью двух плоскостей и их перпендикулярностью к прямой <формулирует>.

– Потому что она доказывается с помощью определения прямой перпендикулярной к плоскости.

– Две пересекающиеся плоскости называются перпендикулярными, если угол между ними равен 90 0 .

–Признак перпендикулярности двух плоскостей.

 Две прямые в пространстве параллельны, если они перпендикулярны некоторой плоскости.

Две прямые в пространстве перпендикулярны, если

 одна из них перпендикулярна некоторой прямой, а другая ей параллельна;

 одна из них перпендикулярна некоторой плоскости, а другая лежит в этой плоскости;

 одна из них является наклонной к некоторой плоскости, а другая лежит в этой плоскости и перпендикулярна проекции первой прямой.

<Ученики формулируют следующие эвристики:

Прямая и плоскость в пространстве перпендикулярны, если

 прямая перпендикулярна двум пересекающимся прямым, лежащим в этой плоскости;

 прямая параллельна некоторой другой прямой, перпендикулярной данной плоскости;

 данная плоскость параллельна некоторой другой плоскости, перпендикулярной данной прямой.

Две плоскости перпендикулярны, если одна из этих плоскостей содержит прямую, перпендикулярную второй плоскости. >

–Давайте теперь поработаем с задачей. Рассмотрим следующую конфигурацию: дан равносторонний треугольник АВС, через середину О стороны АВ проведен перпендикуляр ОD к плоскости АВС, построены отрезки DА, DВ, DС, ОС. Запишем что дано. Задание 1: найдите пары перпендикулярных прямых, прямой и плоскости, двух плоскостей, выделите теоретический базис доказательства.

– Работаем в парах. Первый ряд ищет пары перпендикулярных прямых, второй – перпендикулярных прямой и плоскости, третий ряд – пары перпендикулярных плоскостей. Даю вам 5 минут.

– Начнем с первого ряда. Делайте записи в тетради. <Записи на доске делает ученик>

–Хорошо. Послушаем теперь второй ряд.

–Третий ряд, пожалуйста.

<Работают>

< Ученики называют по одной найденной паре по очереди, называя то положение, которое использовали>

– DOAB (DOABC, значит, по определению прямой, перпендикулярной плоскости, DO, в частности, перпендикулярно АВ)

– DOAC, DOBC (аналогично)

– DCAB (по лемме, теореме о трех перпендикулярах, лемме).

–DOABC(по условию).

–ABCOD,COADB(по признаку перпендикулярности прямой и плоскости).

–DABABC (по признаку перпендикулярности плоскостей)

–DOCABC (по признаку перпендикулярности плоскостей)

–DOCADB (по признаку перпендикулярности плоскостей).

– Мы знаем, что изученная тема позволяет ввести метрические характеристики пространства: расстояния между объектами и углы между ними.

Давайте повторим, как определяются расстояния между различными фигурами. <Открывает заголовок: «Расстояния в пространстве»>

<Учитель открывает по очереди каждый рисунок в таблице>

–Что называется расстоянием от точки до прямой?

–Какие еще расстояния можете назвать?

– Вспомните, как мы решали задачи о нахождении расстояний.

– То есть решение таких задач сводилось всегда к решению треугольников, поэтому отметим это в таблице.

– Теперь вспомним, какие углы мы рассматривали.<Открывает заголовок: «Углы в пространстве»>

– Опишите это понятие.

<Открывает соответствующий рисунок>

– Какие еще углы вы знаете?

– Решение задач на нахождение углов тоже сводится к решению треугольников.

– Расстоянием от точки до прямой называется длина перпендикуляра, проведенного от этой точки к данной прямой.

– От точки до плоскости. Это длина перпендикуляра, проведенного изданной точки к данной плоскости.

– Расстояние между параллельными прямыми. Это расстояние от произвольной точки одной прямой до другой.

– Между параллельными прямой и плоскостью. Это расстояние от произвольной точки прямой до плоскости.

– Между параллельными плоскостями – расстояние от произвольной точки одной из плоскостей к другой.

– Между скрещивающимися прямыми– расстояние между одной из этих прямых и плоскостью, проведенной через другую прямую параллельно первой.

– Сначала мы строили отрезок, длина которого равна искомому расстоянию. Затем включали его в треугольник.

– Угол между прямыми.

– Если прямые пересекаются, то углом между ними называется наименьший из углов, образованных при их пересечении. Если прямые скрещиваются, то надо провести прямые, параллельные данным через произвольные точки пространства и искать угол между ними.

– Угол между прямой и плоскостью, пересекающей эту прямую и не перпендикулярную к ней – это угол между прямой и ее проекцией на эту плоскость.

– И угол между плоскостями – это наименьший двугранный угол, образованный при их пересечении.

– Вернемся к задаче. Найдите углы наклона прямых DA, DB, DC к плоскости ABC. Будем использовать тот же рисунок. Две минуты вам на размышление.

– Начнем с первого задания.

– Как вычислять угол мы только поговорим, а вычисления сделаете дома. Продолжай.

–Второй ряд, пожалуйста.

–И последний угол?

–Дорешаете дома.

–Следующее задание. Найдите расстояния от т. D до пл. АВС, от С до АDВ, от А до DОС. Работаем по рядам и по тому же рисунку.

–Отлично! Теперь найдите расстояния от точки D до прямых АВ, ВС, АС.

Эту задачу будем решать на новом рисунке.

– Мы не знаем как изобразить перпендикуляр из точки D до прямой ВС. В какой еще плоскости расположена прямая ВС?

– Чем является искомая прямая по отношению к этой плоскости?

– То есть прямая ВС должна быть перпендикулярна к наклонной. Что отсюда следует?

– А через какую точку пройдет проекция наклонной?

– Значит нужно сначала изобразить перпендикуляр из точки О к прямой ВС. Можем ли мы это сделать?

– А если бы мы и о треугольнике АВС ничего не знали, то как бы изобразили перпендикуляр из точки D к прямой ВС?

– Как найти DК?

– Как найти расстояние от D до АС? Постройте его на доске.

– Найдите линейные углы двугранных углов при ребрах АС и ВС. Это задача №7.

– Назовите их и докажите.

–Как их найти?

– Так как ОDАВС, то АО – проекция наклонной АD на плоскость АВС, следовательно DАО – угол между DА и АВС.

– Его можно найти из прямоугольного треугольника АОD: DО дано, а АО равно половине АВ.

–Угол между DВ и АВС – это DВО.

–Угол между DС и АВС – это DСО.

– Так как DО – перпендикуляр, проведенный из точки D к плоскости АВС, то DО – искомое расстояние.

– Мы доказывали, что СОDАВ, значит СО–расстояние от С до DАВ.

–АВDОС, то АО–расстояние от А до DОС.

Так как DО перпендикулярно АВ, то DО – расстояние между D и прямой АВ.

– Наклонной.

– Она должна быть перпендикулярной к проекции.

– Через точку О, так как она проекция точки D.

– Да. Сначала построим перпендикуляр к ВС, проходящий через точку А. Пусть М–середина ВС, тогда АМ – медиана правильного ∆АВС, а, следовательно, и высота. Проведем ОК параллельно АМ, тогда ОКВС, и ОК–проекция DК на АВС. При этом DКВС (по теореме о трех перпендикулярах). Поэтому DК–расстояние от точки D до прямой ВС.

– Произвольно.

– Его можно найти из треугольника DОК. DО известно, ОК равно половине АМ, так как ОК – средняя линия ∆АМВ.

– Аналогично, причем DL равно DК.

– Они уже построены.

– DКО – линейный угол двугранного угла при ребре ВС (по определению), так как ОК перпендикулярна ВС и DК перпендикулярна ВС. Аналогично, DLО – линейный угол двугранного угла при ребре АС.

– Например, DКО можно найти из прямоугольного треугольника DОК. А угол DLO равен углу DКО.

Рефлексивно-оценочная часть

– Это все задания, которые мы планировали решить на уроке.

– А теперь подведем итоги сегодняшней работы. Мы говорили о понятии перпендикулярности в пространстве. Сказали, что перпендикулярными могут быть две прямые, прямая и плоскость, две плоскости.

– Какие типы задач нами были рассмотрены?

–Как вы думаете какое значение имеет данная тема в курсе стереометрии?

–на доказательство перпендикулярности объектов, задачи на нахождение расстояния от точки до прямой, от точки до плоскости, задачи на нахождение углов между прямой и плоскостью, между плоскостями.

–позволяет ввести метрические характеристики пространства, то есть определение углов и расстояний между основными фигурами.

– Что вы теперь умеете делать?

– Необходимо помнить, что каждое построение нужно обосновать прежде, чем проводить вычисления.

– Мы умеем доказывать перпендикулярность прямых, прямой и плоскости, двух плоскостей; решать основные задачи на вычисление расстояний и углов, как то находить расстояние от точки до прямой и от точки до плоскости, находить углы между прямой и плоскостью, между плоскостями.

Дома оформить решение последней задачи и подготовиться к контрольной работе.

Расстояния в пространстве (Таблица 1)

От точки до прямой

Между параллельными прямыми

От точки до плоскости

Между парал лельными прямой и плоскостью

Между параллельными плоскостями

Между скрещивающимися прямыми

Основные меры расстояний для переменных, измеренных на метрических шкалах.

1. Евклидово расстояние.

Многомерное евклидово расстояние (1ц между двумя объектами i и ∕ определяется по формуле

где i = 1,2, ..., гг, k – число переменных.

Все переменные стандартизованы, не имеют размерности. Это обеспечивает возможность суммирования расстояний по разным переменным.

Другими словами, дц – это геометрическое расстояние между двумя объектами в многомерном пространстве. Многомерным пространством называют пространство, имеющее число измерений более трех. В нашем случае в формуле (10.5) имеем ^-мерное пространство.

Вычисление многомерного евклидова расстояния по формуле (10.5) чаще называют простым евклидовым расстоянием.

Взвешенное евклидово расстояние применяется в том случае, если переменные ранжированы между собой по степени важности, т.е. им присвоены веса. Вес показателя показывает, насколько важно учесть при классификации данный признак, т.е. при расчете меры сходства учитывается важность показателя, оцененная путем дополнительных исследований, например, экспертным путем.

Взвешенное евклидово расстояние рассчитывается следующим образом:

(10.6)

где Wj – вес у-го показателя,

Сумма всех весов должна равняться 1.

Если трудно определиться с важностью показателя и все веса равнозначны, то рекомендуется использовать простое евклидово расстояние.

2. Квадрат евклидова расстояния:

где– номер объекта,– объем выборки.

Квадрат евклидова расстояния находится как расстояние между двумя элементами г и ∕ через сумму квадратов разности значений всех переменных. Квадрат евклидова расстояния используется для придания больших весов наиболее удаленным друг от друга объектам. Особенно это важно использовать для стандартизованных переменных.

3. Расстояние Чебышева:

(10.8)

Расстояние Чебышева равно максимальному расстоянию между соответствующими координатами объектов. Расстояние Чебышева используют тогда, когда требуется определить различие двух объектов г и ∕ по какой-либо одной координате. Расстояние Чебышева является грубой мерой различия, так как значительная часть имеющейся информации игнорируется.

4. Расстояние Хэмминга (расстояние городских кварталов или манхэттенское расстояние):

Расстояние Хэмминга вычисляется как сумма абсолютных значений координатных расстояний. В большинстве случаев эта мера расстояний приводит к таким же результатам, как и простое евклидово расстояние.

5. Расстояние Минковского:

(10.10)

При р = 2 формула расстояния Минковского принимает вид евклидова расстояния; при р = 1 получаем расстояние Хэмминга.

Расстояния между объектами, рассчитанные по какой-либо из перечисленных выше формул, представляют в виде матрицы расстояний:

(10.11)

Как видим, матрица расстояний представляет собой квадратную матрицу типа "объект – объект" (порядка п ), где в качестве элементов выступают расстояния между объектами в метрическом пространстве. Диагональные элементы такой матрицы равны нулю.

Сходство или различие между объектами классификации устанавливается в зависимости от выбранного метрического расстояния между ними. Если каждый объект описывается свойствами (признаками), то он может быть представлен как точка в -мерном пространстве, и сходство с другими объектами будет определяться как соответствующее расстояние. При классификации используются различные меры расстояния между объектами.

1. Евклидово расстояние

Это, пожалуй, наиболее часто используемая мера расстояния. Она является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:

Естественное, с геометрической точки зрения, евклидова мера расстояния может оказаться бессмысленной, если признаки измерены в разных единицах. Чтобы исправить положение, прибегают к нормированию каждого признака. Применение евклидова расстояния оправдано в следующих случаях:

  • свойства (признаки) объекта однородны по физическому смыслу и одинаково важны для классификации;
  • признаковое пространство совпадает с геометрическим пространством.

2. Квадрат евклидова расстояния

Данная мера расстояния используется в тех случаях, когда требуется придать больше значение более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом:

3. Взвешенное евклидово расстояние

Применяется в тех случаях, когда каждому -свойству удается приписать некоторый «вес» , пропорционально степени важности признака в задаче классификации:

Определение весов, как правило, связано с дополнительными исследованиями, например, организацией опроса экспертов и обработкой их мнений.

4. Хеммингово расстояние

Также называется манхэттенским, сити-блок расстоянием или расстоянием городских кварталов. Это расстояние является разностью по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Хеммингово расстояние вычисляется по формуле:

5. Расстояние Чебышева

Принимает значение наибольшего модуля разности между значениями соответствующих свойств (признаков) объектов:

6. Процент несогласия

Эта мера расстояния используется в тех случаях, когда свойства (признаки) объекта являются категориальными:

Title="P~=~VALUE~delim{|}{~A_{i}~~~B_{i}}{|}">

Например, первый признак объекта – пол, второй – возраст, третий – место работы. Представим значения свойств (признаков) объекта в виде вектора значений. Первый вектор – (муж, 20 лет, учитель), второй вектор – (муж, 28 лет, менеджер). Процент несогласия равен 2/3. Эти вектора различаются на 66.6%.

Выбор меры расстояния и весов для классифицирующих свойств – очень важный этап, так как от этих процедур зависят состав и количество формируемых классов, а также степень сходства объектов внутри классов.

Подобно героям фильма «Человек с бульвара Капуцинов» можно смело утверждать: «Далека дорога твоя». Но одна и та же дорога может быть разной. Когда-то расстояния наносились на карту в днях пути, и путь туда мог не равняться пути обратно. Ведь есть существенная разница, плетешься ли ты в гору или весело переставляешь ноги, спускаясь с горы.

При принятии решений расстояния между объектами также можно мерить по-разному, в зависимости от того, какая перед нами стоит задача и с какими данными мы имеем дело. В этой статье мы рассмотрим несколько методов определения расстояния между объектами и путей применения их на практике.

При принятии решений нам часто необходимо сравнивать объекты между собой. Среди прочего можно использовать представление этих объектов как точек в некотором многомерном пространстве. Допустим нам необходимо выбрать офис для филиала компании.

Для начала определимся с критериями, по которым мы будем оценивать имеющиеся предложения. Пусть это будут расстояние от складов, стоимость аренды, размер помещений и то, насколько нам нравится данный офис (вложим сюда субъективную оценку инфраструктуры). Каждое предложение, таким образом, может быть представлено в виде точки в четырехмерном пространстве.

В обычной жизни мы привыкли к расстоянию, измеренному с помощью формулы Евклида, – корень из суммы квадратов расстояний по каждому измерению. То есть, если нам нужно померить расстояние между диагонально расположенными углами коробки, размеры которой нам известны, нам не обязательно искать линейку. Если под рукой есть калькулятор, достаточно сложить квадраты ширины, высоты и длины и вычислить из них корень. Обратите внимание, формула работает как на плоскости, так и на объеме. Более того, формула верна и для большего числа измерений. Но не во всякой ситуации.

Обратимся за примером к карте Манхеттена (Нью-Йорк). Его география чрезвычайно проста и сводится к формуле: с севера на юг идут авеню, с запада на восток – стрит (см. рис. 1). Если вам надо попасть от южного конца первого авеню к пересечению Мэдисон-авеню и 96-й стрит, вы вольны выбрать любой маршрут. Если при этом вы всегда будете двигаться в сторону конечной точки, последовательно увеличивая номера стрит и авеню, которые вы прошли, расстояние, которое вы пройдете, не будет зависеть от конкретного выбранного маршрута. Оно будет равно сумме расстояния, пройденного по стрит, и расстояния, пройденного по авеню. Или иными словами – сумме расстояний между точками по каждому из параметров.

Рисунок 1. Манхеттенское расстояние не зависит от выбранного маршрута (maps.google.ru) D = ∑|x 1,i - x 2,i |, где x 1,i и x 2,i – i-я координата первого и второго объекта соответственно

Складывать напрямую выбранные параметры мы не можем. В связи с этим попытаемся оценить полезность офиса по каждому из параметрове .

Так как у нас имеется фиксированное множество предложений, мы можем найти минимальное и максимальное значение каждого из параметров. Теперь можно считать, что минимальное значение параметра соответствует нулевому значению полезности (или, в нашем случае, выигрыша в полезности), максимальное значение – единице, а все остальные значения находятся между нулем и единицей. За счет этого нехитрого трюка мы свели все параметры к одной безразмерной шкале, причем значения всех параметров измеряются от нуля до единицы. Теперь мы можем сравнивать тысячи рублей с единицами километров, и это не нарушит физический смысл задачи.

Но как нам сравнить офисы между собой? Очень просто, давайте сложим все значения полезностей для каждого из параметров. Количество параметров фиксировано, минимальное значение полезности равно нулю, максимальное – четырем. Отранжируем полученные значения и выберем тот офис, значение полезности у которого оказалось максимальным.

Поздравляю вас, вы использовали манхеттенское расстояние! В самом деле для того, чтобы определить разницу между офисами, мы используем разницу их полезности, определяемой как сумма разниц по каждому из параметров, то есть манхеттенское расстояние (еще известное как расстояние городских кварталов).

Но в отличие от Манхеттена Москва строилась не сразу, да и строилась по совсем другим принципам.

Допустим, что мы выбираем не офис, а квартиру. Для того чтобы оценить расстояние до работы мы будем использовать не километры, рассчитанные по формуле Евклида, а время, потраченное на дорогу. При этом? если у нас есть несколько вариантов маршрута, использующих различные виды транспорта, мы можем захотеть оценить это время по самому плохому варианту (надо же как-то объяснить риелтору, почему он должен дать нам скидку). В этом случае мы выберем максимум времени для путей на машине, трамвае и метро.

Такая оценка называется расстоянием Чебышева. В данном случае берется расстояние лишь по одному параметру, принимающему максимальное значение.

Мы могли бы использовать данную оценку и для выбора офиса. В этом случае будем смотреть не на сумму разницы полезностей по всем параметрам, а на максимум разницы между офисами.

Например, для двух офисов сумма полезностей примерно равна, но при этом инфраструктура первого офиса намного хуже инфраструктуры второго. Получается, что они не слишком отличаются по расстоянию, цене и площади, но очень отличаются по инфраструктуре. И захочется ли вам работать при прочих равных в плохих условиях? Нет, и в такой ситуации инфраструктура автоматически начинает иметь большее значение.

Теперь представим себе другую ситуацию. Пусть рассматриваемая система может иметь склонность к масштабированию. Например, если один город потребляет больше нашего товара, чем другой город, то это может попросту значить, что во втором городе больше жителей.

Впрочем, зависимость не всегда является столь очевидной. Для того чтобы бороться с подобной неоднозначностью, можно перейти к несколько иной логике измерения сходства между рассматриваемыми объектами. Перед этим мы считали каждый объект точкой в многомерном пространстве. Давайте представим теперь эту точку как один из концов вектора, причем все векторы будут стартовать в начале системы координат. Теперь вместо взаимного расположения точек и расстояний между ними мы можем использовать направление на объекты.

Представим себе, что перед нами экран радара, показывающего перемещения наших и чужих объектов: наши – с одной стороны, чужие – с другой. И те, и другие стараются перемещаться группами. В такой ситуации направление на объект становится более важным, чем расстояние до объекта.

Примерно так же направление становится более важным в пространстве с большим количеством признаков. Объекты, относящиеся к разным классам, обладают различными наборами признаков. Как следствие, для нас становится более важным, с какой стороны появились эти объекты, чем расстояние до них. Если количество параметров становится большим, само наличие или отсутствие значения по данному параметру может стать шумом.

В такой ситуации переходят к косинусной мере сходства. Не вдаваясь в подробности, определим ее как косинус угла между векторами, построенными на основе соответствующих объектов (см. рис. 2). Значения косинусной меры меняются от нуля до единицы.

Если два объекта находятся на одной прямой, проходящей между началом координат, эти объекты считаются одинаковыми (расстояние равно нулю). Подобная ситуация соответствует уже описанному потреблению в городах: если потребление продуктов в первом городе во столько же раз больше, чем во втором, во сколько население первого превосходит население второго, то их векторы будут направлены по одной прямой.

На практике соотношение вряд ли будет выполняться очень точно, однако все объекты будут указывать в одну и ту же сторону. Если два объекта максимально непохожи друг на друга (их векторы перпендикулярны), расстояние между ними будет равно единице.

Пытливый читатель может возразить, что опытный исследователь быстро придет к тому, что вместо построения векторов в двумерном пространстве (потребление, размер населения) можно перейти к одному измерению (потребление на душу населения). Но что делать, если у нас имеются десятки тысяч параметров, а в числителе и знаменателе стоят не отдельные параметры, а их комбинации? Применение косинусной меры позволяет нам в такой ситуации положиться на то, что векторы сами укажут на подобное соотношение. Даже если на практике оно не имеет формально описываемого смысла.

Но приведенные рассуждения наталкивают нас на еще одну мысль. А что если вместо привычной декартовой системы координат (привычной карты, см. рис. 3А) нам перейти к полярной (экран радара, показывающий угол на цель и дистанцию до нее, см. рис. 3В)? Особенно удобна такая ситуация в случаях, когда свои находятся близко, а чужие далеко. Тогда вместо того, чтобы пытаться описать несколько областей на плоскости, мы можем сказать, что вне зависимости от угла все, кто расположен на расстоянии меньше заданного, – свои, а все остальные – чужие (причем чужих можно различать в зависимости от угла на них).

Хлопотная и сложная задача становится простой после некоторого трюка – преобразования системы координат. Подобные преобразования могут проводиться по-разному, но общий смысл их примерно одинаков – мы пытаемся посмотреть на пространство по-другому и поменять систему координат. Правда, не все преобразования так же очевидны, как полярная система координат, поэтому мы не будем их сейчас рассматривать, а перейдем к следующей мере, определяющей сходство объектов.

Одним из вариантов преобразования пространства является сокращение его размерности с помощью таких методов, как метод главных компонент, эластичные карты или t-SNE.

Данные методы позволяют выделить комбинацию из нескольких главных параметров (в случае метода главных компонент) и представить точки в этом новом пространстве. Или попытаться натянуть на точки гибкий коврик и посмотреть, как они там расположатся (в случае метода эластичных карт). Или попытаться «вжать» точки в плоскость (как поступает метод t-SNE). В этом новом пространстве расположение точек может оказаться более удобным, чем в исходном многомерном.

Иногда нам гораздо важнее, что координаты объектов ведут себя сходным образом. Часть параметров принимает относительно небольшие значения, часть, наоборот, стремится вверх. Подобное поведение описывается с помощью корреляции, вычисляемой на двух последовательностях чисел.

Корреляция принимает значения от –1 до +1. Значение +1 говорит о том, что одна последовательность полностью повторяет поведение другой. Так, например, стоимость офисов в одном районе обычно коррелирует с их площадью, то есть увеличение площади влечет за собой рост цены и наоборот.

Корреляция, равная –1, означает противоположное поведение (рост загрязненности воздуха приводит к падению цены). Корреляция, равная нулю, означает полную независимость параметров (светимость Алголя от фаз Луны).

Примеры различных функций и их корреляций приведены на рис. 4. На практике корреляция ниже 0,8 означают очень невысокую зависимость параметров. Существует несколько вариантов вычисления корреляции, но обычно используется формула Пирсона.

Рисунок 4. Значение корреляции для различных функций (изображение взято с сайта ru.wikipedia.org)

Если вернуться к нашему примеру с арендой офиса, то с помощью корреляции можно будет, например, выделить три группы офисов.

В первой расстояние до складов будет невысоким и цена офиса также будет невысока, то есть офисы будут расположены недалеко от складов на окраине города. В нее же войдут офисы, расположенные далеко от складов, и дорогие, то есть расположенные ближе к центру. Эти две группы объединятся, так как и там, и там цены и расстояние находятся на одном уровне полезности.

Вторую группу составят недорогие офисы, расположенные далеко от складов, то есть на другом конце города или еще дальше от центра, чем склады.

Наконец, в третью группу попадут склады, расположенные недалеко от офиса, но дорогие (арендаторы зачем-то решили поднять цены?). И если первая группа имеет для нас какую-то ценность, то зачем смотреть на последние две?

На практике все может пойти не так. Использование различных мер сходства подобно расстановке запятых в фразе «Садись в ногах правды нет». Запятые после первого и третьего слов имеют очень разный смысл и приводят к различным результатам. Но как говорится: «Любой бой, который мы выиграли, является честным». Нам ведь нужно принять правильное решение и обосновать его. Здесь любая мера определения расстояния может быть одинаково ценна, особенно если заранее неизвестно, какая из них правильная.

Перед нами есть карта, и мы меряем расстояния по ней. Но фактически надо смотреть на подписи к карте, говорящие, что путь туда не равен пути оттуда. Если бы у нас был тоннель, мы могли бы смело аппроксимировать ситуацию по формуле Евклида. Но на самом деле придется идти через горы и овраги, поэтому больше подойдет манхеттенское расстояние или расстояние Чебышева (потому что 100 метров вверх – это много больше, чем 100 метров вперед).

В данной статье мы не рассмотрели более экзотические, но от этого не менее полезные расстояния Махаланобиса, Хэмминга, Дайса и французских железных дорог. Но ведь нашей задачей не было вот так сразу раскрыть все секреты, правда? Нам нужно было узнать, что расстояния могут измеряться по-разному, в зависимости от того, какая нам попалась задача. бит

Вконтакте



© dagexpo.ru, 2024
Стоматологический сайт