| Предыдущая тема :: Следующая тема |
| Автор |
Сообщение |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Вс Апр 02, 2006 2:03 pm Заголовок сообщения: Пользовательские генераторы буквенных последовательностей |
|
|
В продолжение темы.
Есть предложение расширить VerseQ, обеспечив пользователей возможностью создавать собственные генераторы буквенных последовательностей. Т.е. помимо статистически сформированных умных баз данных, хотелось бы иметь и тупые (dumb), но настраиваемые, чтобы существенно сократить время изучения определенных сочетаний. Самый простой способ (на основе имеющегося движка) - это сгенерировать входной текст и передать его программе, которая делает словари. В итоге она сделает ту самую тупую БД. Однако было бы на порядок удобнее, если бы строки задавались граматикой или просто регекспом.
Например, учим смешанный регистр: ([a-zA-Z]{1,8}| )
+ цифры: ([a-zA-Z]{1,8}|[\d]?| )
+ знаки (пишу без экранирования): ([a-zA-Z]{1,8}|[\d]?|[,.:'"/><!@#$%^&*()_+]?)
Все альтернативы можно считать вероятными.
Хм? |
|
| Вернуться к началу |
|
 |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Вс Апр 02, 2006 2:13 pm Заголовок сообщения: |
|
|
Уточню: очевидно, при таком подходе (с генераторами) не смогут работать интеллектуальные алгоритмы формирования желтых строк.
Так что снова всё тот же вопрос: Владимир, когда Вы дадите нам собиралку баз данных? Она же у Вас есть, дайте её в любом виде, пусть это будет сырая альфа, никто не обидется. |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Вс Апр 02, 2006 2:35 pm Заголовок сообщения: |
|
|
Уже есть с Windows интерфейсом... Только ее еще нужно добработать, во всяком случае возможность задавать автора базы, а то она пока все делает от моего имени
По поводу регэкспов - пока я их не встроил в интерфейс, по этому пока придется делать предобработку регэкспами вручую. Т.е. как предобработку. Использовать как фильтр уже готовым базам - чревато, т.к. будут разрывы семантических последовательностей.
С уважением, Владимир |
|
| Вернуться к началу |
|
 |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Вс Апр 02, 2006 3:40 pm Заголовок сообщения: |
|
|
Да, пожалуй, регекспы уж слишком тупо Но над идеей генерации 10-мегабайтных входных текстов можно поработать. Например, взять несколько обычных текстов (тех, что использовались для создания умных БД) и разбавить их нужными последовательностями с тем, чтобы в БД они появлялись чаще или применить какое-либо другое преобразования к тексту. А семанитические последовательности можно и не разрывать, это на усмотрение фильтра.
То, что прога под Windows - не вопрос, для создания БД можно пересесть и за виндовую машину  |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Вс Апр 02, 2006 4:56 pm Заголовок сообщения: |
|
|
| Цитата: | | А семанитические последовательности можно и не разрывать, это на усмотрение фильтра. |
Так ведь любой фильтр будет разбивать фонетическую связность последовательностей. Ибо фильтр по своей сути не умеет делать сшивку по краям.
С уважением, Владимир |
|
| Вернуться к началу |
|
 |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Вс Апр 02, 2006 5:06 pm Заголовок сообщения: |
|
|
Ну и что? Слова можно не рубить, оставляя статистику русского языка, а уж без статистики последовательности слов и знаков можно и прожить ради цели: научиться набирать что-то.
Взять Ваш Advanced. Там заглавные буквы попадаются 2-3 на строку в лучшем случае. Т.е. чтобы мне хотя бы по разу увидеть ВСЕ заглавные нужно как минимум 15 строк. Я уже не говорю о том, что чтобы научиться их набирать как строчные, нужно потратить уйму времени. |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Вс Апр 02, 2006 5:15 pm Заголовок сообщения: |
|
|
| Цитата: | | Я уже не говорю о том, что чтобы научиться их набирать как строчные, нужно потратить уйму времени. |
Вот тут как раз и срабатывает статистические механизмы и психологические парадоксы. Ведь буквы Ы вы еще реже встречаете, чем заглавные буквы, однако, то что она появляется редко - кажется вполне закономерным.
В общем тут все просто - буква чаще/реже в языке - значит и отработка чаще/реже - значит и нажимать чаще/реже - значит и интегральное затраченное время на написание текста будет минимально при одном и том-же затраченном времени на обучение, т.к. самые частые буквы Вы будете отрабатывать быстро, а редкие Вам просто придется редко нажимать - классика оптимизация Примерно тоже самое используется в базах данных для оптимизации времени выборки, да даже кэширование имеет одну с этим подходом природу.
Психологический парадокс здесь в том, что мы внутренне не готовы к тому, что Заглавное написание букв не такое уж и частое и по сути не такое уж и важное, как внутренне кажется, а чистой статистике - ей все равно - у нее нет авторитетов - только честные цифры.
С уважением, Владимир |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Вс Апр 02, 2006 5:19 pm Заголовок сообщения: |
|
|
Хотя с буквой Ы я наврал, возьмем лучше букву Ъ  |
|
| Вернуться к началу |
|
 |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Вс Апр 02, 2006 5:40 pm Заголовок сообщения: |
|
|
Владимир, я не спорю о правильности выбора дефолтовых словарей в версии 3.0.9. Но посмотрите на ситуацию с другой стороны. Я, например, никогда раньше не пользовался правым шифтом и чтобы научиться это делать быстро нужно нечто большее, чем просто статистика русского/анлгийского языка. Да, чего уж там, вот такая вот строка - она что, сильно отражают семантику языка? Я просто хочу такую же, но с пробелами и смесью регистров; по отсутсвию семантики она, возможно, будет конкурировать с оригиналом. |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Вс Апр 02, 2006 11:46 pm Заголовок сообщения: |
|
|
С шифтом я уже придумал изящный способ... Нужно только реализовать...
С уважением, Владимир |
|
| Вернуться к началу |
|
 |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Пн Апр 03, 2006 1:17 am Заголовок сообщения: |
|
|
Угу, значит через пару лет выйдет шифтованная версия...
Ну что же, подождем...
 |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Пн Апр 03, 2006 1:38 am Заголовок сообщения: |
|
|
Намек с укором понял... Постараюсь работать побыстрее...
С уважением, Владимир |
|
| Вернуться к началу |
|
 |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Пн Апр 03, 2006 1:42 am Заголовок сообщения: |
|
|
Владимир, а давайте я попробую собрать пару исходников (с языками программирования, спец. символами и тд), загзиплю и пришлю Вам, а Вы сделаете словарь. Это можно? |
|
| Вернуться к началу |
|
 |
ThermIt
Зарегистрирован: 01.02.2006 Сообщения: 147
|
Добавлено: Пн Апр 03, 2006 11:23 am Заголовок сообщения: |
|
|
| Vladimir Kim писал(а): | Хотя с буквой Ы я наврал, возьмем лучше букву Ъ  | К слову о букве Ы... Как-то моей сестре задали в школе зашифровать какой-нибудь текст самым простым методом - заменой букв на значки или другие буквы. Расшифровывается он просто - по частоте символов. Когда пришла пора сдавать результаты её текст казался самым простым, на листочке было несколько строчек, нарисованных не обычными рожицами, чёртиками и цветочками, а простыми печатными русскими буквами... в результате её вызвали к доске. Даже посчитав количество букв учитель не заметил ничего странного, однако странности стали появляться когда он начал спрашивать - это буква О? - нет - может Е? - нет, это Ы... дальше были У, Ъ, Ь, Б и т.п. причём половина символов встречалась с равной частотой. Так что в жизни бывает всякое.
ps: ждём генератор баз.
pps:  |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Ср Апр 12, 2006 11:18 am Заголовок сообщения: |
|
|
| Цитата: | | Владимир, а давайте я попробую собрать пару исходников (с языками программирования, спец. символами и тд), загзиплю и пришлю Вам, а Вы сделаете словарь. Это можно? |
Можно, но боюсь я тогда вообще программу для генерации баз никогда не допишу...
| Цитата: | | К слову о букве Ы... Как-то моей сестре задали в школе зашифровать какой-нибудь текст самым простым методом - заменой букв на значки или другие буквы. |
Ужастно примитивный шифр... Взламывать такой шифр частотной встречаемостью удобно при больших объемах текста, а при малых объемах, когда частотность плохо выражена, гораздо проще использовать биграмный анализ.
Вот, кстати - http://www.verseq.ru/forum/topic239.htm
Оказывается Ы не такая уж и редкая буква...
С уважением, Владимир. |
|
| Вернуться к началу |
|
 |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Чт Апр 13, 2006 2:00 am Заголовок сообщения: |
|
|
| Vladimir Kim писал(а): | | Цитата: | | Владимир, а давайте я попробую собрать пару исходников (с языками программирования, спец. символами и тд), загзиплю и пришлю Вам, а Вы сделаете словарь. Это можно? |
Можно, но боюсь я тогда вообще программу для генерации баз никогда не допишу...  |
Значит ли это, что разработка генератора находится в зачаточном состоянии?  |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Чт Апр 13, 2006 2:08 am Заголовок сообщения: |
|
|
| Цитата: | | Значит ли это, что разработка генератора находится в зачаточном состоянии? |
Да нет, в том то все и дело что последней стадии - все самое интересное (ядро, анализ, построение) уже написаны - осталась скучная рутина - интерфейс...
С уважением, Владимир |
|
| Вернуться к началу |
|
 |
aneganov
Зарегистрирован: 24.03.2006 Сообщения: 43
|
Добавлено: Чт Апр 13, 2006 3:51 am Заголовок сообщения: |
|
|
А он точно нужен этот интерфейс? Ведь генерация базы это далеко не ежедневное занятие рядового пользователя.
Не знаю какую функциональность Вы хотите вложить в данную тулзу, но неужели выразительные возможности командной строки недостаточны? |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Пн Май 01, 2006 2:07 pm Заголовок сообщения: |
|
|
Командная строка - это только для гуру...
Да и то в этом случае придется делать файлы-профили, в которых указывать и кодировку и алфавит и глубину и авторов... Т.ч. с интерфейсом даже проще будет.
С уважением, Владимир |
|
| Вернуться к началу |
|
 |
ThermIt
Зарегистрирован: 01.02.2006 Сообщения: 147
|
Добавлено: Чт Май 04, 2006 8:19 am Заголовок сообщения: |
|
|
Что вы там так долго делаете? Окошко, десяток галочек, пара такстбоксов и кнопка "ok", вот всё что нам нужно.  |
|
| Вернуться к началу |
|
 |
ThermIt
Зарегистрирован: 01.02.2006 Сообщения: 147
|
Добавлено: Чт Май 04, 2006 8:25 am Заголовок сообщения: |
|
|
| Vladimir Kim писал(а): | ...гораздо проще использовать биграмный анализ.
|
Только не стоя у доски
Ага, но мы нарачно её туда напихали во всех допустимых случаях...  |
|
| Вернуться к началу |
|
 |
Vladimir Kim Команда VerseQ

Зарегистрирован: 21.03.2004 Сообщения: 2173 Откуда: Москва
|
Добавлено: Вт Май 16, 2006 12:41 pm Заголовок сообщения: |
|
|
| Цитата: | | Ага, но мы нарачно её туда напихали во всех допустимых случаях... |
Такая штука может спутать частотный анализ, а биграмный уже врядли.
С уважением, Владимир |
|
| Вернуться к началу |
|
 |
|