?

Log in

No account? Create an account

masterok


Мастерок.жж.рф

Хочу все знать


Previous Entry Share Next Entry
Закон Бенфорда
masterok

Каков шанс, что случайное число начнётся с цифры «1″? Или с цифры «3″? Или с «7″? Если вы немного знакомы с теорией вероятности, то можете предположить, что вероятность?—?один к девяти, или около 11%.

Если же вы посмотрите на реальные цифры, то заметите, что «9″ встречается гораздо реже, чем в 11% случаев. Также куда меньше цифр, чем ожидалось, начинается с «8″, зато колоссальные 30% чисел начинаются с цифры «1″. Эта парадоксальная картина проявляется во всевозможных реальных случаях, от количества населения до цен на акции и длины рек.

Давайте узнаем подробнее, что это за теория …

Закон Бенфорда был открыт вовсе не Бенфордом, а американским астрономом Шимоном Ньюкомбом. Примерно в 1881 г. Ньюкомб заметил, что страницы тетради с логарифмическими таблицами, на которых числа начинались с 1, гораздо сильнее захватаны и истрепаны, чем страницы, на которых числа начинались с 2 и так далее до 9 – те выглядели чистыми, как будто их вообще не открывали. Ньюкомб предположил: те страницы, которые больше всего истрепались, чаще всего и открывали, и на основании своих наблюдений заключил: те ученые, которые до него брали тетрадь, работали с данными, отражавшими подобное распределение цифр. Закон же был назван по фамилии Франка Бенфорда, который в 1938 г. заметил то же самое, что и Ньюкомб, когда просматривал логарифмические таблицы в научно-исследовательской лаборатории «Дженерал Электрик» в г. Скенектади, штат Нью-Йорк.  Он обнаружил, что частота появления цифры в качестве первой падает по мере того, как цифра увеличивается от одного до девяти. То есть «1″ появляется в качестве первой цифры примерно в 30,1% случаев, «2″ появляется около 17,6% случаев, «3″?—?примерно в 12,5%, и так далее до «9″, выступающей в качестве первой цифры всего лишь в 4,6% случаев.

Но ни Ньюкомб, ни Бенфорд не доказали справедливость закона. Это произошло только в 1995 г., и автор доказательства – Тед Хилл, математик из Технологического института Джорджии.

Чтобы понять это, представьте себе, что вы последовательно нумеруете лотерейные билеты. Когда вы пронумеровали билеты от одного до девяти, шанс любой цифры стать первой составляет 11,1%. Когда вы добавляете билет № 10, шанс случайного числа начаться с «1″ возрастает до 18,2%. Вы добавляете билеты с № 11 по № 19, и шанс того, что номер билета начнётся с «1″, продолжает расти, достигая максимума в 58%. Теперь вы добавляете билет № 20 и продолжаете нумеровать билеты. Шанс того, что число начнётся с «2″, растёт, а вероятность того, что оно начнётся с «1″, медленно падает.

Закон Бенфорда не распространяется на все случаи распределения чисел. Например, наборы чисел, диапазон которых ограничен (человеческий рост или вес), под закон не попадают. Он также не работает с множествами, которые имеют только один или два порядка.

Тем не менее, закон распространяется на многие типы данных. В результате власти могут использовать закон для выявления фактов мошенничества: когда предоставленная информация не следует закону Бенфорда, власти могут сделать вывод, что кто-то сфабриковал данные.

Закону Бенфорда подчиняются числа из многих областей, к примеру, из области финансов. В действительности, закон как нельзя лучше подходит для обработки большого массива финансовых показателей на предмет мошенничества.

В одном таком случае был замешан молодой предприниматель Кевин Лоуренс – он умудрился собрать 91 млн. долларов на создание сети клубов здоровья, оборудованных по последнему слову техники. Набив карманы наличными, Лоуренс развил бурную деятельность, нанял тучу исполнительных директоров и спустил деньги инвесторов так же быстро, как и собрал. И все бы ничего, за исключением одного: Лоуренс со своей когортой большую часть денег тратили не на развитие дела, а на личные нужды. А так как приобретение нескольких домов, двадцати личных яхт, сорока семи автомобилей (в числе которых пять «хаммеров», четыре «феррари», три спортивных «доджа», два шикарных «форда» и «ламборгини дьябло»), двух часов «Ролекс», браслета с бриллиантами в 21 карат, самурайского меча за 200 тыс. долларов и машины для коммерческого производства сладкой ваты едва ли можно было списать как деловые расходы, Лоуренс с дружками попытались увести деньги путем перечисления их по сложной банковской схеме со счета на счет как средства то одной подставной компании, то другой – все с целью создания видимости активно расширяющегося бизнеса. На их несчастье, заподозривший неладное бухгалтер-криминалист Даррелл Доррелл составил список из более чем 70 тыс. номеров (счета и переводы) и, опираясь на закон Бенфорда, сравнил, как распределяются цифры. А распределялись они вразрез с законом. Это, конечно же, было только началом расследования, однако дальше история развивалась по известному сценарию, а развязка наступила за день до Дня благодарения 2003 г., когда Кевин Лоуренс, окруженный своими адвокатами и облаченный в светло-голубую тюремную робу, был приговорен к двадцати годам заключения без права досрочного освобождения. Налоговое управление США также изучило закон Бенфорда как способ обнаружения случаев налогового мошенничества. Один исследователь даже применил закон к данным налоговых поступлений от Билла Клинтона за тринадцать лет. Цифры распределились в соответствии с законом.

 

Закон Бенфорда применим к множествам чисел, которые могут расти экспоненциально (другими словами, темп роста величины пропорционален её текущему значению). Например, счета за электричество, остатки товаров на складах, цены на акции, численность населения, смертность, длины рек, площади стран, высоты самых высоких сооружений в мире.

Закон обычно не действует для распределений с заданными минимальными или максимальными значениями (список компаний с доходом от 50 000 до 100 000 долларов). Также не подходит нормальное распределение и распределения, охватывающие только один или два порядка величин (IQ взрослых). Закон Бенфорда не применим к множеству букв. Объём данных должен быть достаточен для применения статистических методов.

Форма Закона Бенфорда может быть объяснена, если предположить, что равномерно распределены логарифмы чисел; например, вероятность нахождения числа между 100 и 1000 (логарифм между 2 и 3) является такой же, как и между 10 000 и 100 000 (логарифм между 4 и 5). Для множества чисел, особенно имеющих экспоненциальный рост, таких как доходы или цены на бирже, это разумное предположение.

Для того чтобы установить явный вид функции F(n), удовлетворяющей закону Бенфорда, рассмотрим переменную величину G(t), растушую по показательному (экспоненциальному) закону.  Время, за которое G(t) возрастает от 1 до 10, примем за единицу времени; тогда G(t) = 10t. Разделим интервал [0, 1] на отрезки, внутри которых значения G(t) заключены между последовательными целыми числами. Их границами служат точки lg1 = 0, lg2, lg3…..lg9, lg10 = 1 (рис. 3).

 

Рис. 3. Объяснение закона Бенфорда

 

Когда G(t) нарастёт до 10, примем эту десятку за новую единицу измерения, а текущее время – за новое начало отсчета; при этом процесс нарастания G(t) в следующем разряде от новой единицы до новой десятки каждый раз будет описываться одной и той же формулой.

Вероятность обнаружить величину G в таком состоянии, что её первая цифра равна n, равна длине n-ого отрезка:

Значения F(n), вычисленные по этой формуле, приведены в таблице:

Первая цифра Значение F(n) или вероятность встретить цифру первой
1 30,103%
2 17,609%
3 12,494%
4 9,691%
5 7,918%
6 6,695%
7 5,799%
8 5,115%
9 4,576%

 

Похоже ведет себя и население стран мира (рис. 4). Вот что пишет на эту тему математик академик Владимир Игоревич Арнольд. Согласно теории Мальтуса, население каждой страны растет в геометрической прогрессии. А первые цифры населения фиксированной страны в последовательные годы распределены как первые цифры степеней двойки (см. рис. 2).

Согласно эргодическому принципу,  временное среднее можно заменить пространственным: распределение по странам в один и тот же год должно совпадать с распределением в одной стране в разные годы.

 

Рис. 4. Первая цифра населения стран мира

 

 

Рис. 5. Первая цифра площади стран мира

 

Рис. 6. Первые цифры чисел из энциклопедий

 

И напоследок статистика первых цифр суммы счета торговой компании (более 71 000 записей).

 

Рис. 7. Первые цифры суммы счета торговой компании

 

[источники]

источники

http://baguzin.ru/wp/?p=4367

http://habrahabr.ru/post/240853/

https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD_%D0%91%D0%B5%D0%BD%D1%84%D0%BE%D1%80%D0%B4%D0%B0

 

Давайте еще вспомним, что такое Волшебные ЧЕТЫРЕ ЧЕТВЕРКИ, а так же о том, что существует вот такой Парадокс дней рождения и Парадокс Монти Холла. А вот такое интересное Число «фи» и оказывается великая теорема ФЕРМА доказана ! 

Оригинал статьи находится на сайте ИнфоГлаз.рф Ссылка на статью, с которой сделана эта копия - http://infoglaz.ru/?p=62119
Subscribe to  masterok

promo masterok январь 2, 2018 12:00 47
Buy for 300 tokens
Вот так выглядит трафик в блоге за 2019 год по месяцам. Это более трех миллионов просмотров в месяц, среди которых не только залогиненные в ЖЖ , но и любые просмотры из поисковых систем. При этом за месяц приходит около 800 000 посетителей. А вот статистика по дням одного из месяцов 2019…

  • 1
Да, и 10-летних людей гораздо больше 90-летних.

Зато заканчивается чаще всего на 99.95

Чепуха бывает всякой

Вот и ещё одна.

Не все слова понятны ;) но спасибо.
Вот для себя нарисовал следующий пример:
Допустим, случайная величина равномерно распределена на диапазоне 0-199 (да, я читал, что не должно быть ограничений, но так более выпукло - видно, откуда ноги растут).
С единицы начинаются:
1
10-19 (10 чисел)
100-199 (100 чисел)
Итого 111 чисел из 200 или 55,5%
С 2-9 начинаются:
2 (9)
20-29 (90-99)
Итого 11 чисел из 200 или 5,5%

Если снять ограничение на распределение, то можно представить, как работает закон.

ничего себе...

Этожыд бойжий пгомысел! бгг

DROMOS_MUSAGET( голосом финансового злодея)))

(Anonymous)
А давлеет ли распределение Бенфорда над природными феноменами, если использовать восьмеричную систему счисления?)))

Иллюстрация - только что сфотографировал на конференции:


Если верить Арнольду, длины рек не подчиняются закону Бенфорда.
"... Для контроля теории я рассмотрел числа страниц в книгах моей библиотеки, длины рек и высоты гор. Во всех этих случаях доли единиц и доли девяток среди первых цифр полученных чисел оказались практически одинаковыми ..."
http://kvant.mccme.ru/pdf/1998/01/kv0198arnold.pdf

  • 1