Българската компания за семантичен софтуер Онтотекст отправя предизвикателство към екипи от ентусиасти, които ще участват на Datathon 2017, като им предлага да преобразуват данните от Търговския регистър във формат отворени и свързани данни (Linked Open Data – LOD). Целта е да се демонстрира как семантичниите графови бази данни могат да разкрият връзки и скрити факти в масив с ненормализирани данни. Например:
– да идентифицират и класифицират най-големите групи от свързани фирми в България или в определен район;
– борд разходка: да анализират как съвместното участие на директори в бордове на различни фирми се отразява на сферите им на влияние.
Като част от първото практическо предизвикателство, свързано с обработка и анализ на данни за Централна и Източна Европа – Datathon Bulgaria, Онтотест ще участва с “Да хакнем Търговския регистър”. За целта, Онтотекст ще предостави на екипите част от данните от търговския регистър между 2008 – 2017 година. Със съдействието на ментори, участниците ще бъдат преведени през процеса на превръщането на тези данни в свързани отворени данни с помощта на прост RDF модел и свързването им с други отворени масиви от данни.
Търговският регистър се администрира от Агенцията по вписванията и е достъпен онлайн от 2008 година. Регистърът съдържа информация за всички компании и юридически лица в България, включваща адреси, собственици и управители. Това е информационен ресурс с голяма обществена значимост, чиято цел е да подпомага компаниите и ограничава корупцията.
За предизвикателството Datathon 2017 Онтотекст ще партнира с OpenCorporates – най-голямата отворена база данни от компании и бизнес информация в света, с над 120 милиона фирми от над 100 държави. OpenCorporates е партньр на Онтотекст по програмата Хоризонт 2020, по проекта euBusinessGraph, който цели да създаде платформа за интегриране, хармонизиране и публикуване на данни за европейските компании.
Основната цел на OpenCorporates е да направи информацията за компаниите по-използваема и широко достъпна за обществото, и по-конкретно – да бъде използвана за превенция на криминални и анти-обществени дейности, свързани с използването на фирми, като например корупция, пране на пари и организирана престъпност. Това е много важна задача в контекста на все по-голямата роля, която играят фирмите в съвременното общество с мрежи от юридически лица в различни държави.
Предизвикателството от страна на Онтотекст ще покаже как един голям набор от изключително сложни данни, като тези на търговския регистър – в момента те са организирани като набор от ежедневни актуализации в XML файлове – могат да бъдат агрегирани и превърнати в LOD формат, който да е достъпен, отворен (основан на отворени стандарти и препоръки от W3C) и взаимосвързан (показващ връзките между фирми, управители, местоположения, регулаторни и съдебни дела).
Полученият масив от данни ще позволи всички тези данни да се свържат лесно с други отворени източници на данни, като например Geonames (всички географски обекти на Земята), DBPedia (структурирана версия на Wikipedia), Wikidata, OpenCorporates и много други. Създаването на LOD формат на Търговския регистър има потенциала да направи данните по-прозрачни и информативни за бизнеса, както и по-лесни и ефективни за търсене в тях от страна на изследователи и журналисти. По този начин ще се улесни достъпът до тях и ще се подпомогне борбата с корупцията.
Менторите в процеса на “хакване” на търговския регистър ще са Димитър Манов и Пламен Търкаланов от Онтотекст, и Алекс Ангелов от OpenCorporates. Седмица преди събитието, Онтотекст предоставя на екипите безплатни обучителни видео материали, адаптирани от еднодневното обучение: “Какво е успешен прототип със семантични технологии”. На място, преди самото предизвикателството да започне, менторите ще споделят полезни практически съвети и хитрини. Всеки участник ще получи ваучер за безплатно ползване на стандартната версия на GraphDB on the cloud, който ще важи три месеца след събитието.
Dathaton Bulgaria ще се проведе между 24 и 26 март 2017 и ще награди отборите, стигнали до най-прецизно, креативно и елегантно решение на проблемите, свързани с обработка и анализ на данни.