Junções Adaptativas em Consultas Federadas sobre Linked Data
نویسندگان
چکیده
Motivated by the success of Linked Data and driven by the growing number of data sources into RDF files available on the web, new challenges for query processing are emerging, especially in distributed settings. These environments allow distributed execution of federated queries, which involve joining data provided by multiple sources, which are often unstable. In this sense, the design of new algorithms and adaptive strategies for efficiently implementing joins is a major challenge. In this paper we present a solution to the adaptive join execution in federated queries. The adaptation to the context of distributed data sources is based on statistics that are collected at runtime. To evaluate the proposed approach we implemented two adaptive join algorithms: Pipeline hash-join (PHJ) and Set-bind-join (SBJ). The experimental results demonstrate the potential of the proposed approach. Resumo. Motivado pelo sucesso de Linked Data e impulsionado pelo crescimento do número de fontes de dados em formato RDF disponíveis na Web, novos desafios para processamento de consultas estão emergindo, especialmente em configurações distribuídas. Estes ambientes distribuídos possibilitam a execução de consultas federadas, as quais envolvem junções de dados fornecidos por múltiplas fontes, as quais são muitas vezes instáveis. Nesse sentido, a concepção de novos algoritmos e estratégias adaptativas para a execução de junções de forma eficiente constitui um desafio importante. Nesse trabalho, apresentamos uma solução para a execução adaptativa de junções em consultas federadas. A adaptação ao contexto das fontes de dados distribuídas baseia-se em estatísticas que são coletadas em tempo de execução. Para avaliar a abordagem proposta implementamos dois algoritmos de junção adaptativos: Pipeline Hash-join (PHJ) e Set-bind-join (SBJ). Os resultados experimentais comprovam o potencial da abordagem proposta.
منابع مشابه
Processamento de consultas na Web de Dados: uma abordagem para busca de fontes de dados relevantes
The adoption of Linked Data principles has contributed towards the creation of a Web of Data, allowing the development of applications and tools which run queries over available information. One of the main challenges for the query processing over the Web is the selection of relevant sources, i.e., sources which could contribute significantly to the result of a query. In this paper, we discuss ...
متن کاملProcessamento de Consultas XML usando Máquinas de Inferência
Resumo. Processamento de consultas XML sobre grandes bases de dados pode sofrer de problemas de desempenho. Em trabalhos anteriores, mostramos que algumas consultas XML, quando executadas usando uma máquina de inferência, são processadas mais rapidamente do que sua equivalente em XQuery. No entanto, para se beneficiar desse bom desempenho, é necessário traduzir consultas XML para a linguagem ló...
متن کاملRecomendações para fragmentação horizontal de bases de dados XML
Resumo. A grande quantidade de dados XML disponíveis na Web e dentro das organizações traz consigo um grande desafio no processamento de consultas sobre ambientes distribuídos. Surge então a necessidade da aplicação de técnicas que permitam um processamento de consultas mais eficiente. Neste sentido, técnicas de fragmentação de dados e processamento paralelo de consultas sobre bases de dados di...
متن کاملAnálise de Dados Científicos: uma Análise Comparativa de Dados de Simulações Computacionais
Resumo. Os avanços nas simulações computacionais têm permitido o processamento de volumes de dados cada vez maiores. Para representar as estruturas de dados complexas inerentes de tais simulações, elas são armazenadas em arquivos de formatos heterogêneos. Carregar tais dados em um SGBD, como o SciDB, para apoiar as análises deles se torna uma tarefa complexa, ou mesmo inviável, devido ao seu vo...
متن کاملDesenvolvimento de Linked Data Mashups com o uso de LIDMS
Semantic Web technologies like RDF model, URIs and SPARQL query language, can reduce the complexity of data integration by making use of properly established and described links between sources. However, the di culty to formulate distributed queries has been a challenge to harness the potential of these technologies due to autonomy, distribution and vocabulary of heterogeneous data sources. Thi...
متن کامل