Preview

Алтаистика. Altaistics

Расширенный поиск

О разработке лингвистической базы данных онтологического типа, как ресурса для лингвопроцессоров

Аннотация

В данной статье описывается разработка лингвистических онтологических баз данных для тюркских языков, которые могут быть использованы в целом ряде лингвистических процессоров для обработки текстов на тюркских языках. Актуальность данной работы заключается в том, что несмотря на активные разработки для тюркских языков в последние 10-15 лет практически все тюркские языки (кроме турецкого) продолжают относиться к типу малоресурсных языков. Это связано с тем, что для тюркских языков наблюдается дефицит лингвистических ресурсов, применимых в различных компьютерных разработках по обработке естественного языка. Это могут быть разного рода онтологические базы данных типа WordNet, FrameNet, VerbNet, РуТез и др., а также комбинации этих ресурсов с электронными корпусами. Подобные онтологические базы данных могут быть использованы в различных информационно-справочных системах, при создании синтаксических, семантических и семантико-синтаксических анализаторов, а также учебных и научных прикладных программ. В предлагаемой нами работе представлен подход, который объединяет онтологические модели фреймового и таксономического типа, структурно-параметрическую модель тюркской морфемы в единую интегральную модель. В основу разработки такой модели изначально положены принципы многоязычности, многофункциональности и прагматической ориентированности. Многоязычность предполагает универсальность для всех языков тюркской группы, а прагматическая ориентированность именно ориентированность на структурно-функциональные особенности языков агглютинативного типа. Создание программного обеспечения кроме вышеперечисленных теоретико-лингвистических методов и технологий предполагает использование технологий проектирования сложных баз данных, веб-программирования, клиентсерверных технологий. На основе интегральной онтологической модели создается многоязычная база данных для тюркских языков, которая используется для генерации правил контекстно-свободной грамматики и создания семантико-синтаксического анализатора. На вход данного анализатора поступают предложения на тюркских языках, а на выходе получаются структурированные данные. Получаемый таким образом анализатор применим для семантико-синтаксической разметки тюркских электронных корпусов и создания программ семантического поиска.

Об авторах

А. Р. Гатиатуллин
Академия наук Республики Татарстан
Россия

ГАТИАТУЛЛИН Айрат Рафизович – к. тех. н., ведущий научный сотрудник

г. Казань



Н. А. Прокопьев
Академия наук Республики Татарстан
Россия

ПРОКОПЬЕВ Николай Аркадьевич – научный сотрудник

г. Казань



Список литературы

1. Дыбо А.В., Шеймович А.В. (2014) Автоматический морфологический анализ для корпусов тюркских языков. Филология и культура, №2, с. 20-26.

2. Желтов П.В. (2002) Морфологический анализатор чувашского языка. Материалы Международной конференции студентов и аспирантов по фундаментальным наукам «Ломоносов 2002».

3. Шарипбаев А.А., Бекманова Г.Т., Ергеш Б.Ж., Бурибаева А.К., Карабалаева М.Х. (2012) Интеллектуальный морфологический анализатор, основанный на семантических сетях. Материалы международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS-2012), с. 397-400.

4. Sharipbay A.A., Bekmanova G., Yergesh B., Mukanova A. (2014) Synchronized liner tree for morphological analysis and generation of the Kazakh language. Proceedings of the international conference “Turkic languages processing”, TurkLang 2014, pp. 113-117.

5. Orhun, M., Tantuğ A.C., Adalı E. (2010) Morphological Disambiguation Rules For Uyghur Language. IEEE International Conference on Software Engineering and Service Sciences (ICSESS), pp. 542-546. doi: 10.1109/ ICSESS.2010.5552304

6. Sahin G.G., Adalı E. (2018) Annotation of semantic roles for the Turkish proposition bank, 52(3), pp. 673-706. doi: 10.1007/s10579-017-9390-y

7. Eryiğit G., Nivre J., Oflazer K. (2008) Dependency Parsing of Turkish. Computational Linguistics, 34(3), pp. 357-389. doi: 10.1162/coli.2008.34.4.627

8. Lyashevskaya O., Kashkin E. (2015) FrameBank: A Database of Russian Lexical Constructions. Proceedings of the 4th International Conference on Analysis of Images, Social Networks and Texts (AIST 2015). Communications in Computer and Information Science, vol. 542, pp. 350-360. doi:10.1007/978-3-319-2

9. Turkish National Corpus (TNC). URL: http:// www.tnc.org.tr.

10. Алматинский корпус казахского языка. URL: http://web-corpora.net/KazakhCorpus/search/.

11. Корпус алтайского языка. URL: http://altay 2.gasu.ru.

12. Национальный корпус башкирского языка. URL: http://bashcorpus.ru.

13. Башкирский поэтический корпус. URL: http:// web-corpora.net/bashcorpus/search/.

14. Корпус татарского языка ‘Туган тел’. URL: http://tugantel.tatar.

15. Письменный корпус татарского языка. URL: http://www.corpus.tatar.

16. Корпус хакасского языка. URL: http://khakas.altaica.ru.

17. Корпус якутского языка. URL: http://adictsakha.nsu.ru/corpora/corp.

18. Корпус узбекского языка. URL: http://corpus-uz.herokuapp.com.

19. Корпус шорского и телеутского языков. URL: https://corpora.iea.ras.ru/corpora.

20. Лингвистическое ПО «МетаФраз R10». URL: http://www.metafraz.ru.

21. C. F. Hockett, Two models of grammatical description, WORD Vol. 10 (1954) 210–234.

22. Yelibayeva G., Sharipbay A., Mukanova A., Razakhova B. (2020) Applied ontology for the automatic classifcation of simple sentences of the Kazakh language. 5th International Conference on Computer Science and Engineering, UBMK 2020. pp. 13-18. doi: 10.1109/UBMK50275.2020.9219461

23. FrameNet. URL: https://framenet.icsi.berkeley.edu.

24. Palmer M. (2009). Semlink: Linking PropBank, VerbNet and FrameNet. Proceedings of the Generative Lexicon Conference., pp. 9-15.

25. Gatiatullin A., Suleymanov D., Prokopyev N., Khakimov B. (2020) About turkic morpheme portal. CEUR Workshop Proceedings Institute for history, language and literature, Ufa scientifc center, Russian Academy of Sciences Proceedings of TurkLang 2020, pp. 226-243.


Рецензия

Для цитирования:


Гатиатуллин А.Р., Прокопьев Н.А. О разработке лингвистической базы данных онтологического типа, как ресурса для лингвопроцессоров. Алтаистика. Altaistics. 2021;1(1):77-88.

For citation:


Gatiatullin A.R., Prokopiev N.A. On development of ontological linguistic database as a resource for language processors. Altaistics. 2021;1(1):77-88. (In Russ.)

Просмотров: 238


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2782-6627 (Online)