                      ОБЩА ИНФОРМАЦИЯ


  Този проект има за цел да създаде база с думи за проверка на
правописа, проверка за съгласуване на частите на речта
(проверка на граматиката) и сричкопренасяне. Идеята е да се
направят пакети за поддръжка на българския език за продукти с
отворен код като OpenOffice.org, aspell, ispell и други.


  Системата е основана изцяло на книгата/учебника на Кръстев Б.,
Морфология на българския език в 187 типови таблици. С., НИ,
1984. Много интересно и полезно четиво. Първоначално идеята
беше да се създаде проверка на правописа. Имаше събрани
достатъчно думи, но липсваха правилата за образуване на
словоформите. След намирането на тази книга, количествените
натрупвания преминаха в качествени и тогава се промени изцяло
формата и структурата на данните за да отговарят на тези 187
типа. Промениха се и идеята, и стратегията за развитие на
проверката на правописа. Информацията, която сега се съдържа
във файловете, дава възможност за осъществяване на много повече
цели освен проверка на правописа. Сравнително лесно може да се
направи система за проверка на съгласуването на частите на
речта. Не е трудно да се направи програма за разпознаване на
думите и определяне на техния тип, лице, числото и дали (не) са
членувани. Но това са бъдещи планове.


  Думите идват главно от две места. Първата партида (около 30
000 думи) идват от "SA Dictionary" (http://sa.dir.bg/) и от "O2
Dictionary" (известен преди като "Otto Dictionary",
http://get.to/otto). След това бяха добавени около 20 000 нови
думи от http://dabuzzard.250free.com/, по-точно от
http://dabuzzard.250free.com/enbg.zip. Има списък на още около
30 000 думи в различни форми, които трябва да бъдат проверени и
класифицирани. От тях може да излязат още около 5 000 - 10 000
думи в основна форма. Но по-важната задача е да се прегледат
наличните думи за грешки. Българските имена и фамилии са
събирани от разни списъци в Интернет. Главно от страниците на
комисията за изборите, където са публикувани всички кандидат
депутати и от разни други места, където има списъци с имена на
хора. Имената на градовете и държавите са събирани от разни
правителствени страници в Интернет, където има примерно списък
на страните, с които имаме не знам си каква спогодба.


  Към системата има няколко скрипта на Perl, с чиято помощ се
извършва проверка на системата, добавяне на нови думи и
генерирана на речници за OpenOffice.org, aspell и ispell.
Най-добре да използвате системата под Linux (понеже голяма част
от командите, които използвам ги няма под Windows). Ако някой
иска да ползва системата за генериране на речници или добавяне
на нови думи под Windows, трябва да си инсталира Perl и Cygwin.
Но тогава Windows-a ще заприлича на Linux, та затова направо си
инсталирайте Linux и забравете за Windows.


  Ако желаете само да добавяте нови думи и да генерирате
речниците, то прочетете кратките обяснения в стил "Как да?".


  Ако някой мисли да се занимава с разширяване на системата,
добре е да прочете спецификацията й. Там има няколко файла,
които описват структурата на директориите, типовете и файловете
с данни. Има подробно обяснение на структурата на директориите
и правилата за дефиниране и създаване на типове и подтипове.
Описан е и процесът на обхождане на тези типове (файлове) и
начина на генериране на последователни имена. Има и подробна
спецификация за вътрешната структура на файловете (формата на
данните). Описани са правилата за обработка на файл. Описан е
начинът за образуване на словоформи от основната форма.


  Всяка помощ е добра дошла. Търсят се доброволци да помагат.


  bgOffice
  Авторски права (C) 2001 Радостин Раднев <radnev@yahoo.com>

  Получавате тази програма БЕЗ КАКВИТО И ДА Е ГАРАНЦИИ. Това е
свободна програма и, ако желаете, можете да я разпространявате
при определени условия. За подробности прочетете файла
COPYING.BULGARIAN, който идва с този пакет.


  bgOffice
  Copyright (C) 2001 Radostin Radnev <radnev@yahoo.com>

  This program comes with ABSOLUTELY NO WARRANTY. This is free
software, and you are welcome to redistribute it under certain
conditions. For details read file COPYING that comes with this
package.
