Имя: Пароль:
LIFE
 
OFF: Задачка по теории вероятности.
,
0 Asirius
 
04.12.13
14:22
1С-ник на своей большой базе выбрал случайный документ. Нумерация документов стандартная без префиксов.
Какая вероятность того, что первая цифра в номере этого документа начинается с 1?
56 andrewalexk
 
04.12.13
15:04
(53) :)) пту финишд?
57 lamesnake
 
04.12.13
15:05
(55) к (13)
58 Sabbath
 
04.12.13
15:06
(0) теория вероятностЕЙ кстати
59 NS
 
04.12.13
15:06
(54) Что проверить? Элементарная задача. Ответ 0.5. 50%.
60 Серго62
 
04.12.13
15:07
(53) А че мешает ее в процентах выразить?
Если подбросить например монету (и исключить те случаи когда она встанет на ребро или зависнет в воздухе), то вероятность выпадения орла или решки 50%. Я не прав?
61 NS
 
04.12.13
15:08
(60) По определению процент - одна сотая доля. Конечно прав.
62 Sabbath
 
04.12.13
15:08
(13) если нули "естественно" отбросить, то почему в условии не сказано, сколько символов в номере максимально?
63 andrewalexk
 
04.12.13
15:09
(59) :) сам себе противоречишь, см (42)
64 Torquader
 
04.12.13
15:10
Пусть размер базы P (количество документов)
P=(10^N)+L
где N - максимальная степень десяти
0<=L<(9*10^N)-1
Мы выбираем случайное целое число [0,P]
Пусть V - вероятность встретить единицу
В массиве мы имеем равномерный участок 1/9 (на 10^N-1 документе)
Вероятность 1 при условии от 10^N до MIN(L,10^N)
Вероятность 0 при условии от 10^N до (9*10^N)-1
Теперь суммируем:
((1/9)*(10^N-1)+MIN(L,10^N))/((10^N)+L)

Теперь рассмотрим это выражение.
Поскольку L разномерно распределено от 0 до (9*10^N)-1,
то от N зависимости быть не должно,
то все расчёты проведём при N=2,
(так как при N=1 нет предыдущего куска с 1/9).
((1/9)*(99)+MIN(L,100))/(100+L), где 0<=L<=899
То есть (9+MIN(L,100))/(100+L) - пишем программу и считаем

0.235936098089893
65 Принт
 
04.12.13
15:11
(56) маргинал?
66 Серго62
 
04.12.13
15:11
(51) Если количество документов неизвестно, то как посчитать вероятность? Если документов 2, то 1/2, если 3, то 1/3 или я что то путаю?
67 NS
 
04.12.13
15:11
(59) (63) Я там немного ошибся.
(1+1/2+1/3+1/4+1/5+1/6+1/7+1/8+1/9) /9 = 0.31432980599647266314
То есть 31.43%
И в условии не один знак.
68 NS
 
04.12.13
15:12
(66) см. (42)
69 Torquader
 
04.12.13
15:12
Наврал (11+MIN(L,100))/(100+L) => 0.241062972185251
70 andrewalexk
 
04.12.13
15:13
(65) :) я его про это и спросил
71 Птица
 
04.12.13
15:13
(58)+1. Именно, а то думала, только мне глаз режет
72 Принт
 
04.12.13
15:14
(70) я окончил пту и знаю, что вероятность измеряется в процентах. кто ограничен?
73 Torquader
 
04.12.13
15:15
(72) Вероятность - число от 0 до 1, конечно, можно измерять в процентах, но смысл от этого не меняется.
74 NS
 
04.12.13
15:20
(73) Вероятность измеряется в долях. Процент это одна сотая доля.
75 Torquader
 
04.12.13
15:24
76 andrewalexk
 
04.12.13
15:24
(72) :) ты и ваш препод по теорверу
зы
есть еще вопросы?
77 Принт
 
04.12.13
15:26
(76) false positive
78 Torquader
 
04.12.13
15:27
(76) На самом деле, это отношение двух чисел, где числитель всегда не больше знаменателя - очень похоже на определение процента.
79 Torquader
 
04.12.13
15:28
Вы лучше не спорьте, а мои рассуждения проверьте - может быть я где-то облажался (просто сначала у меня получилось число явно большее 1 и пришлось пересчитывать).
80 Gantosha
 
04.12.13
15:28
слушайте, ну откройте учебник Боровкова - у меня ее нет - найдите любую задачу по комбинаторике в общем на классическую вероятность  .. там могут быть проценты в описании, и поищите их. Я вот открыл Феллера и на нашел процентов.
81 Torquader
 
04.12.13
15:30
(80) Процент - это сотая доля числа - так что в процентах можно выразить всё.
Но в учебниках обычно вероятность обозначают дробью, так как периодическая десятичная запись не катит.
Например, вероятность вытащить один шар из трёх равна 1/3 или 33.(3)% - второе как-то не сразу понятно.
82 Gantosha
 
04.12.13
15:31
(79) ну теперь N погоняй до 9 и найди сумму. Скорее всего ответ и сойдется к тому что там кто то уже решил .. так как в общем то понятно , что числа не случайны по своему появлению.
83 NS
 
04.12.13
15:31
На трех станках-автоматах обрабатываются однотипные детали, поступающие после обработки на общий конвейер. Первый станок дает 2% брака, второй – 7%, третий – 10%. Производительность первого станка в 3 раза больше производительности второго, а третьего – в 2 раза меньше, чем второго.
http://www.matburo.ru/tvbook_sub.php?p=par16
84 andrewalexk
 
04.12.13
15:31
(77)(78) :) речь про (53)
85 NS
 
04.12.13
15:31
(79) см. (42) (67)
86 NS
 
04.12.13
15:32
В (83) Задача из учебника. Вероятность указана в процентах.
87 Torquader
 
04.12.13
15:35
(86) Если задача про брак, то там всегда будут проценты, так как его просто ни в чём другом не измеряют.
88 Gantosha
 
04.12.13
15:38
вообще , забавно вы тролитесь. Самолюбие такая штука.
89 andrewalexk
 
04.12.13
15:39
90 NS
 
04.12.13
15:39
(87) Брак - это вероятность. Вероятность брака. И измеряют вероятность естественно в процентах. Так как процент это всего лишь одна сотая доля.
91 Torquader
 
04.12.13
15:39
(82) По N я погонял - разницы нет (в пятом-шестом знаках).
92 Gantosha
 
04.12.13
15:40
(89) я не очень понимаю что там нарисовано  - пояснение будет ?
93 Gantosha
 
04.12.13
15:41
(91) сумму надо считать по всем N
94 Torquader
 
04.12.13
15:41
(90) КДП тоже все привыкли мерить в процентах, но это также число - процент можно рассматривать как одну из форм записи числа.
95 NS
 
04.12.13
15:42
(94) Процент это не форма записи числа. Это одна сотая доля.
96 andrewalexk
 
04.12.13
15:42
(92) :) это иллюстрация мотивации (88)
97 Torquader
 
04.12.13
15:42
(93) Зачем ?
Если считать по всем N, то проще записать Сумма(V(i))/P где i от 1 до P
98 NS
 
04.12.13
15:44
Вероятностью события A называют отношение числа m благоприятствующих этому событию исходов к общему числу n всех равновозможных несовместных элементарных исходов, образующих полную группу.

Отношение - это доля. А доли мы естественно можем записывать в сотых долях, в процентах.
99 Gantosha
 
04.12.13
15:44
(96) а ..поянтно.
100 Torquader
 
04.12.13
15:45
Кстати, большая база - это максимальная длина номера, а номер всего-то 20 символов, так что можно сразу положить, что N=20 и посчитать.
101 NS
 
04.12.13
15:46
(64) "где 0<=L<=899"
Что-то мне подсказывает что целое трехзначное число 100<=L<=999, а среднее число не более трех знаков
1<=L<=999.
Что такое 899?
102 Gantosha
 
04.12.13
15:48
(97) у вас N (длина номера) не зафиксирована и может быть любой. Поэтому по всем надо считать .
103 Torquader
 
04.12.13
15:52
(101) Число у нас от 1 до 999 или 99 чисел (предыдущий случай) и 900 чисел этого уровня.
Из 99 вероятность единицы будет 1/9.
из 900 оставшихся получается 1 для 99 чисел и 0 для остальных.
Добавляя знак (увеличивая N) мы просто растягиваем отрезок - соотношение остаётся тем же самым.
Поэтому N просто отбросили и усреднили по хвосту числа.
104 NS
 
04.12.13
15:54
(103) При этом напутав где только можно.
Написать тебе программу, которая считает среднюю вероятность первой единице при количестве номеров равномерно распределенных между 1 и 999? Она выдаст совсем другой результат.
105 andrewalexk
 
04.12.13
15:56
(104) :) напиши...а то у меня получается (16)
106 NS
 
04.12.13
15:59
(105) (16) ну никак получится не может.
Но и в (64) всё верно. 0.24290004193316073052

//*******************************************
Процедура Сформировать()
    // цикл по количеству номеров            
    вер=0;// всего 999 случаев
    Для кол=1 по 999 Цикл
        // цикл по всем номерам.
        колвоСединицы=0; // всего кол
        Для а=1 по кол  Цикл
            Если лев(строка(а),1)="1" Тогда
                колвоСединицы=колвоСединицы+1;
            КонецЕсли;
        КонецЦикла;
        вер=вер+колвоСединицы/кол;
    КонецЦикла;
    сообщить(вер/999)
КонецПроцедуры
107 Torquader
 
04.12.13
15:59
(104) Так она и выдаст другой результат.
Чтобы получить результат нужно просуммировать вероятность получения первой единицы для N от 1 до 999.
V(999)=0.(1) - естественно, что отличается.
108 Torquader
 
04.12.13
16:00
G=0
A=0
For i=1 To 999 Step 1
    s=CStr(i)
    If Left(s,1)="1" Then G=G+1
    A=A+1
Next
MsgBox CStr(G/A),0,"OK"
109 NS
 
04.12.13
16:01
Так как распределение равномерное. А правильно брать как в (42) - равномерно распределенный логарифм?
(107) ?!?
110 NS
 
04.12.13
16:02
(109) В конце первого предложения восклицательный знак, а не вопросительный. :)
111 Torquader
 
04.12.13
16:02
Function P(N)
    Dim A
    Dim G
    Dim i
    A=0
    G=0
    For i=1 To N Step 1
        A=A+1
        If Left(CStr(i),1)="1" Then G=G+1
    Next
    P=G/A
End Function

Q=0
M=0
For j=1 To 999 Step 1
    M=M+1
    Q=Q+P(j)
Next
MsgBox CStr(Q/M),0,"OK"

0.242900041933161
112 Asirius
 
04.12.13
16:04
(111) Правильный ответ по формуле из (42)
Log 2 =~0,30102...
113 Asirius
 
04.12.13
16:05
(111) У тебя скорее ошибка в том, что не учтена сама вероятность N
114 NS
 
04.12.13
16:10
(113) см. (109)
115 Torquader
 
04.12.13
16:11
(112) В законе Бенфорда говорится, что величина растёт экспоненциально, а число документов растёт вполне линейно.
116 Torquader
 
04.12.13
16:13
(113) Вероятность N у меня учтена, но я считал, что появление каждого варианта (0..N) равномерно, а в формуле Бенфорда они считают появление варианта по экспоненте, то есть запись перевели в логарифмическую шкалу и уже по ней размазали линейно.
Тогда получается другой ответ, но у нас, на самом деле, и множество конечно и шкала линейная.
117 andrewalexk
 
04.12.13
16:14
(106) :) это частный случай...у меня тоже при 999 так...а при 1000 уже меньше...и скорее всего стремится к 1/9
118 Asirius
 
04.12.13
16:16
(114) (115)
Для баз данных документов правильнее брать логарифмическое распределение.
Мы рассматриваем не конкретную базу, а совокупность всех баз.


При равномерном распределении количество баз, в которых до 1000 документов будет слишком мало по сравнению с базами, в которых от 100 тысяч до 1 миллиона документов, хотя на практике это не так
119 NS
 
04.12.13
16:17
(117) Не стремится к 1/9 даже при равномерном распределении.
(115) Количество номеров в системе, по разным фирмам - естественно распределено экспоненциально.
120 fmrlex
 
04.12.13
16:17
(0)Т.к. не указано распределение, не указан метод выборки,
в общем случае 1/К,
где К - кол-во доков
121 NS
 
04.12.13
16:19
(120) Во это да. Из любого количества номеров, без учета лидирующих нулей, с единицы начинается только один?
122 Asirius
 
04.12.13
16:25
+(118) Хотя с гноблением малого бизнеса в России, возможно что статистика будет искажена в сторону более крупных баз.
123 Одесса
 
04.12.13
17:12
Ничего не имея против закона Бенфорда как такового, скажу лишь, что формулировка задачи не вполне корректная, поскольку не дано никакой значимой информации, кроме указания на то, что база большая. Поэтому, если не дополнять исходные условия, то  решить её методами теории вероятности проблематично. Либо можно получить парадоксальные результаты.
124 NS
 
04.12.13
17:14
(123) Разумное предположений может быть только одно. Логарифм количества номеров распределен равномерно. Просто равномерное распределение количества номеров явно неразумно, ибо тогда нужна верхняя граница для распределения. И единственным разумным ответом получается (42)
125 Одесса
 
04.12.13
17:20
(124) Обоснуй.
Я же имел ввиду, что в условии задачи не хватает информации, каков был порядок присвоения номера документу: как в 1С - последовательная нумерация, либо номера назначались случайным образом по какому либо правилу или следуя какому-либо распределению. Все это БАЗОВЫЕ условия, от которых зависит ответ на вопрос. Например, при последовательной нумерации никакого распределения Бенфорда для первой цифры не будет и в помине.

Без уточнения того, как нумеровались документы, решать эту задачу - все равно что гадать какова вероятность встретить на улице динозавра (либо встречу, либо нет, значит 1/2) либо подсчитывать вероятность выпадения орла, ничего нне зная о том, симметрична монета или нет.
126 Mikeware
 
04.12.13
17:22
(124) а для недесятеричной системы счислени? :-)
127 NS
 
04.12.13
17:24
(125) Допустим номера присваиваются случайно.
Какие разумные варианты распределения есть?
128 NS
 
04.12.13
17:24
(126) Это другая задача.
129 Mikeware
 
04.12.13
17:26
(128) не совсем. сводится к (0) :-)
130 Mikeware
 
04.12.13
17:28
(127) иэх. чот думать даже лень
131 NS
 
04.12.13
17:31
Что дано. Номеров много, то есть количество не ограничено сверху, у распределения либо не должно быть параметров, либо результат не должен от них зависеть. Вижу только один вариант - экспоненциальное распределение номеров.
132 Одесса
 
04.12.13
17:32
(127) Мало сказать "присваиваются случайно", надо конкретизировать, как именно: равномерно в каком-то интервале номеров или, например "по Гауссу" :)
Если абстрагироваться, то любой вариант распределения можно считать разумным, а если вспомнить про то, что упоминается 1С, то логично предположить равномерное распределение. Потому и говорю, что в условии задачи не хватает такого рода уточнения.
Если же ты априори задаешь равномерное распределение для  логарифмов номеров, то только в этом случае ты и получишь что-то близкое к Бенфорду (тем точнее, чем больше максимальная длина номера).
133 Torquader
 
04.12.13
17:33
(127) Если номера присваиваются случайно, то мы будем ближе к 1/9.
А в 1С, кстати, документы нумеруются в пределах года, так что вопрос ещё более сложен.
134 Torquader
 
04.12.13
17:34
(131) Ну, для номеров документов более подходит нормальное распределение, так как размер базы, всё-таки, ограничен и длина номера также.
135 NS
 
04.12.13
17:35
(131) правильней наверно говорить - экспоненциальный рост.
136 NS
 
04.12.13
17:36
(134) В условии нет параметров.
137 Одесса
 
04.12.13
17:36
(131) Почему экспоненциальное, а не квадратичное? Или, например, чем гамма-функция хуже экспоненты? опять же, каждый этот случай будет иметь свой ответ и он будет правильным (именно для рассматриваемого случая).

Спорить о том, какое распределение лучше смысла не имеет.
138 NS
 
04.12.13
17:36
Если бы речь шла о нормальном распределении - в условии обязательно были бы параметры. То же самое с равномерным.
139 Одесса
 
04.12.13
17:37
(136) В условиях вообще ничего нет, кроме 1Сника )))
140 Torquader
 
04.12.13
17:40
И, кроме того, уточняется, что база "большая", а закон Бенфорда (как сказано)
http://матметоды.рф/zakon-benforda/
никак не соотносится с размером базы.
Предполагается, что выборка документа ИЗ ЛЮБОЙ БАЗЫ будет давать первую цифру по закону Бенфорда.
141 Torquader
 
04.12.13
17:43
То есть, если в условии задачи поставить "рабочая база", то тогда номера документов предполагаются соответствующими этому закону.
Можно ли считать, что большая база = рабочая база, или большая база, это когда счётчик номера близок к максимальному значению ?
142 andrewalexk
 
04.12.13
17:44
:) кстати прикольная функция получается
http://yadi.sk/d/y8w-D9DmDnWjR
143 rphosts
 
04.12.13
17:56
(0) для решения задачи необходима ещё куча данных, например нумератор имеет какой тип? Если строка, то задача для решения требует дополнительных сведений.
144 Torquader
 
04.12.13
18:01
(143) Первая цифра в строке номера (префиксы и нули изначально отбрасываются).
Вообще - получается так - что следование чисел по времени - экспоненциальное распределение, а сложенные воедино множество факторов дают нормальное распределение (на которое закон Бенфорда не распространяется).
Поскольку для "больших баз" мы можем определить среднюю длину номера (как половину максимальной), то распределение всё-таки экспоненциальным не является.
И тогда нужно считать интеграл по вероятности нормального распределения от функции вероятности единицы для заданного количества документов.
145 Одесса
 
04.12.13
18:04
(143) Если число, то тоже требует. Народ в комментариях эти сведения и придумывеает.

Но если под словом "большая база" подразумевать большое количество документов-ссылок среди большого количества ВИДОВ документов и то, что количество документов каждого вида есть случайная величина, распределенная по некому закону (равномерно? лог-равномерно или еще как?), то тогда задачу уже можно решать.
146 NS
 
04.12.13
18:39
(140) Естественно не из любой, а средняя вероятность по выборке из большого количества разных баз.
147 uno-group
 
04.12.13
18:54
Объяснение закона Бенфорда также заключается в том, что многим величинам (не всем) этого мира свойственен экспоненциальный рост, а не линейный.
Нумерация документов растет линейно. в 7.7 максимальная длина номера 20 знаков. И документы зависят друг от друга и их количество как то связано между собой. И самое е это то что журнал откроется и с позиционируется или в начало периода или в конец
148 NS
 
04.12.13
19:06
(147) Речь не про то как растет нумерация документов, а про то как распределен среди баз максимальный номер.
149 MKZM
 
04.12.13
19:09
(148) почему максимальный?
150 Одесса
 
04.12.13
20:07
Кстати, ситуация с распределением Бенфорда легко моделируется даже на одной не обязательно очень большой базе. Надо только, чтобы периодичность нумерации была, скажем, месяц и возраст базы был бы не меньше пары-тройки лет (чем больше периодов в базе, тем лучше будет приближение к Бенфорду). При сквозной последовательной нумерации в рамках документа одного вида Бенфорда не получить. Ну, опять же, это все доп. условия, которыми мы дополняем условия исходной задачи, исходя из своего представления о "типичной" базе 1С.
151 NS
 
04.12.13
20:19
(149) как распределен максимальный, так будет распределен и случайный.
152 Torquader
 
04.12.13
20:53
Случайный мы выбираем равновероятно из отрезка [1,Max] поэтому, вероятность получить какой-то элемент равна 1/Max.
Дальше, на самом деле, количество документов зависит от размера фирмы - причём практически линейно.
Соответственно, если мы отсеиваем мелкие фирмы, коих много, то остаются солидные конторы, количество которых с ростом размера стремиться к нулю (например, конторы больше чем Microsoft и т.п. нет, хотя и там нет 1С).
Другими словами, у размера фирмы есть явное ограничение сверху, что предполагает и ограничение на количество документов.
Ну и получается, что распределение фирм явно не лезет в экспоненту, которая просто в случае количества документов за периоды (разные) могла бы получиться.
153 MKZM
 
04.12.13
20:54
(150) А по теории вероятности верность верности модели как определяется?
154 MKZM
 
04.12.13
20:55
Просто на нее умножать надоть. Или нет?
155 Gantosha
 
05.12.13
09:20
не хочется делать новую тему ..ну так вот про статику.
И так всем образованным людям известно, что самолет более безопасный транспорт чем автомобиль. Цифры расчета основаны на статистике гибели людей при перевозки их на тысячу километров (порядок там выше конечно).  Это конечно прекрасно и логично с одним но. Доля количества самолетов которое заканчивает тоталом больше чем доля машин которое заканчивает тоталом. (цифры из головы - но мне кажется у самолетов это процента 2% от парка, у машин цифра ниже). Так вот если считать время до гибели в самолете или машине, то при использовании километража самолет выигрывает, а вот если перейти просто к бытовому использованию т.е. например сутра вы выбираете добираться в магазин или на работу на машине или самолете , то ситуация будет не в пользу самолета. И люди отчетливо это чувствуют .. вчера у одного самолета была аварийная посадка .. так вот потом народ долго сажали в этот самолет.