Онтотекст демонстрира силата на свързаните отворени данни на Datathon 2017

Българската компания за семантичен софтуер Онтотекст отправя предизвикателство към екипи от ентусиасти, които ще участват на Datathon 2017, като им предлага да преобразуват данните от Търговския регистър във формат отворени и свързани данни (Linked Open Data – LOD). Целта е да се демонстрира как семантичниите графови бази данни могат да разкрият връзки и скрити факти в масив с ненормализирани данни. Например:

– да идентифицират и класифицират най-големите групи от свързани фирми в България или в определен район;

– борд разходка: да анализират как съвместното участие на директори в бордове на различни фирми се отразява на сферите им на влияние.

Като част от първото практическо предизвикателство, свързано с обработка и анализ на данни за Централна и Източна Европа – Datathon Bulgaria, Онтотест ще участва с “Да хакнем Търговския регистър”. За целта, Онтотекст ще предостави на екипите част от данните от търговския регистър между 2008 – 2017 година. Със съдействието на ментори, участниците ще бъдат преведени през процеса на превръщането на тези данни в свързани отворени данни с помощта на прост RDF модел и свързването им с други отворени масиви от данни.

Търговският регистър се администрира от Агенцията по вписванията и е достъпен онлайн от 2008 година. Регистърът съдържа информация за всички компании и юридически лица в България, включваща адреси, собственици и управители. Това е информационен ресурс с голяма обществена значимост, чиято цел е да подпомага компаниите и ограничава корупцията.

За предизвикателството Datathon 2017 Онтотекст ще партнира с OpenCorporates – най-голямата отворена база данни от компании и бизнес информация в света, с над 120 милиона фирми от над 100 държави. OpenCorporates е партньр на Онтотекст по програмата Хоризонт 2020, по проекта euBusinessGraph, който цели да създаде платформа за интегриране, хармонизиране и публикуване на данни за европейските компании.

Основната цел на OpenCorporates е да направи информацията за компаниите по-използваема и широко достъпна за обществото, и по-конкретно – да бъде използвана за превенция на криминални и анти-обществени дейности, свързани с използването на фирми, като например корупция, пране на пари и организирана престъпност. Това е много важна задача в контекста на все по-голямата роля, която играят фирмите в съвременното общество с мрежи от юридически лица в различни държави.

Предизвикателството от страна на Онтотекст ще покаже как един голям набор от изключително сложни данни, като тези на търговския регистър – в момента те са организирани като набор от ежедневни актуализации в XML файлове – могат да бъдат агрегирани и превърнати в LOD формат, който да е достъпен, отворен (основан на отворени стандарти и препоръки от W3C) и взаимосвързан (показващ връзките между фирми, управители, местоположения, регулаторни и съдебни дела).

Полученият масив от данни ще позволи всички тези данни да се свържат лесно с други отворени източници на данни, като например Geonames (всички географски обекти на Земята), DBPedia (структурирана версия на Wikipedia), Wikidata, OpenCorporates и много други. Създаването на LOD формат на Търговския регистър има потенциала да направи данните по-прозрачни и информативни за бизнеса, както и по-лесни и ефективни за търсене в тях от страна на изследователи и журналисти. По този начин ще се улесни достъпът до тях и ще се подпомогне борбата с корупцията.

Менторите в процеса на “хакване” на търговския регистър ще са Димитър Манов и Пламен Търкаланов от Онтотекст, и Алекс Ангелов от OpenCorporates. Седмица преди събитието, Онтотекст предоставя на екипите безплатни обучителни видео материали, адаптирани от еднодневното обучение: “Какво е успешен прототип със семантични технологии”. На място, преди самото предизвикателството да започне, менторите ще споделят полезни практически съвети и хитрини. Всеки участник ще получи ваучер за безплатно ползване на стандартната версия на GraphDB on the cloud, който ще важи три месеца след събитието.

Dathaton Bulgaria ще се проведе между 24 и 26 март 2017 и ще награди отборите, стигнали до най-прецизно, креативно и елегантно решение на проблемите, свързани с обработка и анализ на данни.