Имя: Пароль:
IT
 
Как составить список английских слов с примерной частотой их встречаемости?
0 DTX 4th
 
24.04.17
13:42
Нашёл на википедии вот такой списочек из 40к слов:
https://en.wiktionary.org/wiki/Wiktionary:Frequency_lists

Но там есть разные формы одних слов:
do, doing, does, did
Из нет многих слов. Например:
excitedly, cloak, broad, contrary, wide, squeaky, passersby, weatherman, nervously, stiffly, horribly, sleepiness, unblinkingly, belt

Как мне составить свой список?

Первое, что приходит на ум - взять какой-нибудь словать поменьше по типу Ожегова и распарсить его. Потом прогнать слова по книгам.

Основной вопрос. Какие есть словари в английском языке? И мб посоветуете какой попроще?
1 Лефмихалыч
 
24.04.17
13:44
нахрена?
2 Одинесю
 
24.04.17
13:46
Сейчас тебе расскажут почему это делать не надо))
3 Про100Филя
 
24.04.17
13:49
По распределению парето будет.
4 Irbis
 
24.04.17
13:51
Парсить нужно не словарь, а некоторый список литературы. Тогда и частоту определишь. Но имхо глупость всё это. В русском языке с помощью пяти слов можно объяснить любую вещь
5 Про100Филя
 
24.04.17
13:52
(3) Ципфа*
6 Про100Филя
 
24.04.17
13:53
7 DTX 4th
 
24.04.17
13:59
Долгая история)
Грубо говоря, чтобы помочь себе в изучении английского.

(4) Там будет куча ненужных форм и времен.

(6) Очень интересно. Сейчас попробуем оттуда вытащить данные)
8 DTX 4th
 
24.04.17
14:04
(6) Считай, в открытом виде лежат. Очень круто, спасибо!
9 Sserj
 
24.04.17
14:25
Где то на хабре проскльзывало. Народ парсил субтитры из сериалов и выводил частоту. Главное если займешься не парсить что-то специализированное типа доктора хауса :)
10 Живой Ископаемый
 
24.04.17
14:30
>Из нет многих слов. Например:
>excitedly, cloak, broad, contrary, *wide*, squeaky, passersby, weatherman, >nervously, stiffly, horribly, sleepiness, unblinkingly, belt

https://www.dropbox.com/s/u3dxtjm5vrrmk4f/Screenshot%202017-04-24%2014.29.56.png?dl=0

дальше не проверял, и ветку не читал
11 Лефмихалыч
 
24.04.17
14:34
(8) там как бы тоже не всё однозначно:
https://i.imgur.com/EHMdCPM.png
12 DTX 4th
 
24.04.17
14:36
Да тоже субтитры парсю :D

Так. Теперь остался вопрос про словарь. Какой есть словарь забугорный? Желательно чтобы можно было скачать, но это я сам смогу загуглить если что.
(6) Там тоже разные формы слов..

(10) Что ты вообще проверить пытался? xd
У меня список "Frequency lists as of 2006-04-16" из 40к слов, о чем я говорил в (0)

(11) Это ладно.
Мне бы от вот этого избавится:
do, doing, does, did, done
13 Живой Ископаемый
 
24.04.17
14:36
expectedly - нет, потому что это отглагольное наречие. Ожидать - ожидаемо.
pasersby - прохожие, да, вот такой послелог-превратившийся в суффикс

horribly - нарчие, ужасно, тоже наверняка есть в какой-то из тысяч

belt - https://www.dropbox.com/s/gxf5actmpctsrca/Screenshot%202017-04-24%2014.35.07.png?dl=0

короче, таких которые нет - на самом деле или есть, или являются составными словами. Или просто множественным числом.

То есть проблема только в том, чтобы отсеять неправильные формы глаголов?
14 Живой Ископаемый
 
24.04.17
14:37
2(12) то, на что ты дал ссылку:
https://en.wiktionary.org/wiki/Wiktionary:Frequency_lists
15 DTX 4th
 
24.04.17
14:41
(13) Опять ты. Сказал же, что у меня словарь из 40к слов.

Специально для тебя обрежу список (слова мне выдал php):
cloak, broad, contrary, wide, weatherman, belt
16 DTX 4th
 
24.04.17
14:42
Вот тут поищи, если делать нечего:
http://i.imgur.com/UPb40EJ.png
17 Вафель
 
24.04.17
14:43
(7) это тебе не поможет в изучении.
Ибо тупым заучивание язык не берется
18 Живой Ископаемый
 
24.04.17
14:51
2(15)
https://www.dropbox.com/s/2dofkus39cqccia/Screenshot%202017-04-24%2014.50.27.png?dl=0

2(17) С чего ты думаешь что он собрался тупо заучивать?
Может программку создаст, которая  более употребительное слово будет более жирно выделять.
19 Живой Ископаемый
 
24.04.17
14:54
wide и belt уже скриншотил.
20 DTX 4th
 
24.04.17
14:56
(17) Это тебе такие суждения не помогут)
Я же не говорил, что собираюсь тупо заучивать.

Вот нашёл словарик:
https://www.easypacelearning.com/english-books/english-books-for-download-pdf/category/33-3-dictionaries-to-download-in-pdf

Хз как его парсить теперь)

(19) Не там ты ищешь)
21 Irbis
 
24.04.17
14:58
(7) Да пофуй, статистка она такая. Есть слово в тексте, +1 к счет.
22 Живой Ископаемый
 
24.04.17
14:59
2(20) чувак, так это ты не там ищешь. Скачай их прямо из викепидийской статьи и пропарсь 1Сом.
23 Живой Ископаемый
 
24.04.17
15:01
2(20) PDF практически никак.
Вернее если у него есть текстовый слой - то лучше сначала каким-то инструментом в какой-то текстовый формат
24 DTX 4th
 
24.04.17
15:02
(21) В тексте пять слов:
do did done does doing

Мне юзеру нужно вывести только "do"

(22) Я уже распарсил и залил в БД список "Frequency lists as of 2006-04-16". Не поверишь, качал прямо оттуда.
25 polosov
 
24.04.17
15:03
(0) Загони слова в БД и воспользуйся всей мощью языка запросов.
26 Живой Ископаемый
 
24.04.17
15:06
https://www.freepdfconvert.com/ru/pdf-word

===
>Мне юзеру нужно вывести только "do"

значит тебе нужно где-то знать, что это формы одно слова.

Но опять же...

А как по-твоему, слово undo - это тоже do или нет?

или к примеру: undertake, overcome, undergone?
они относятся к take, come, go или сами по себе?
27 Иэрпэшник
 
24.04.17
15:10
(7) <помочь себе в изучении английского>

По-моему, английский нужно начать изучать не со статистики частоты встречаемости слов, а с азов.
Для начала - выучить алфавит. :)
28 DTX 4th
 
24.04.17
15:13
(26) По-моему, сами по себе.
Т.к. зная take, come и go, мало кто сможет понять значения приведенных тобой слов.
29 Живой Ископаемый
 
24.04.17
15:14
а еще смотри. Судя по всему, ты собрался показывать юзеру отдельные слова:
It *has nothing to do with* your something

So, *deal with* it

Somehow I *come along*

Хотя  последовательности выделенные звездочками - это фразовые глаголы, где предлог(в данном случае послелог) изменяет значение глагола. И носителями воспринимается как одна лексическая единица.. Но так уж исторически сложилось, что разделяемая пробелом на письме.
30 Irbis
 
24.04.17
15:15
(24) Это ты сам себе задачу придумал? Или всё частотное распределение слов интересно.
Сравни с русским: делать, сделать, переделать, отделать, выделать и т. п.
31 Живой Ископаемый
 
24.04.17
15:18
2(28) Ок, годится... хотя непонятно почему doing нужно показывать как do, а undergone не нужно как go. Непонятно где граница. Там окончание, там приставка... Но ладно. С этим разобрались - если в твоем служебном словарике будет

DO = do, done, did, doing, does
а для
GO = gone, gone, went,
и будет
UNDERGO  = undergo, undergone, undergoes
тогда все ок.

Но вот случай (29) более интересен
32 DTX 4th
 
24.04.17
15:25
(30) Сам

(29) Ну это уже следующий уровень.
И много таких глаголов?
Их вроде как отдельно лучше выучить? Или как?

(31) да, сейчас так и есть.
33 Живой Ископаемый
 
24.04.17
15:28
2(32) Их более чем до.уя.
Практически все, что в русском делается с помощью приставок - в английском при помощи послелогов, образуя фразовые глаголы.

А вишенка на торте, то - что часто такие слова разрывные, и в разрыв между смысловым глаголом и послелогом ставится объект, подвергающийся действию.
34 Garykom
 
гуру
24.04.17
15:30
(17) Для умения читать/переводить на лету тупое заучивание вполне годится.

Для общения (письменного или устного) понятно не пойдет и надо учить фразы и правила составления.
35 Живой Ископаемый
 
24.04.17
15:31
https://www.usingenglish.com/reference/phrasal-verbs/


A reference of 3488 current English Phrasal Verbs (also called multi-word verbs)



Например самый известный
let *my people* go.

фразовый глагол "отпустить" разрывается объектом, который нужно отпустить.
36 Вафель
 
24.04.17
15:34
(35) в данном случае и дословный перевод близок к правильному смыслу
37 Живой Ископаемый
 
24.04.17
15:35
2(36) частный случай из как мы видим 3488. в других случаях так будет не всегда
38 Живой Ископаемый
 
24.04.17
15:43
но в первом приближении думаю действительно, и без этого обойтись можно
40 Злопчинский
 
24.04.17
16:56
В условиях ипортозамещения человек собирающий парсить чуждое нам наречие должен вызвать пристальное внимание...
41 Волшебник
 
модератор
24.04.17
17:04
(40) Это ж для допроса военнопленных
42 Злопчинский
 
24.04.17
17:15
(41) вот из йо милитари труп?!
Здесь можно обсудить любую тему при этом оставаясь на форуме для 1Сников, который нужен для работы. Ymryn