Accepted Research Papers

12 Leveraging Spatio-Temporal Redundancy for RFID Data Cleansing
Haiquan Chen, Auburn University; Wei-shinn Ku, Auburn University; Haixun Wang, Microsoft Research, Asia; Min-Te Sun, National Central University, Taiwan

18 Efficient Querying and Maintenance of Network Provenance at Internet-Scale
Wenchao Zhou, University of Pennsylvania; Micah Sherr, University of Pennsylvania; Tao Tao, University of Pennsylvania; Xiaozhou Li, University of Pennsylvania; Boon Thau Loo, University of Pennsylvania; Yun Mao, University of Pennsylvania

24 SecureBlox: Customizable Secure Distributed Data Processing
William Marczak, UC Berkeley; Shan Shan Huang, LogicBlox, Inc.; Martin Bravenboer, LogicBlox, Inc.; Micah Sherr, University of Pennsylvania; Boon Thau Loo, University of Pennsylvania; Molham Aref, LogicBlox

29 Spreadsheet As a Relational Database Engine
Jerzy Tyszkiewicz, University of Warsaw

43 Hierarchically Organized Skew-Tolerant Histograms for Geographic Data Objects
Yohan Roh, KAIST; Yon Dohn Chung, Korea University; Jin Hyun Son, Hanyang University; Jae Ho Kim, KAIST; Myoung Ho Kim, KAIST

53 Automatic Contention Detection and Amelioration for Data-Intensive Operations
John Cieslewicz, Columbia University; Kenneth Ross, Columbia University; Kyoho Satsumi, Columbia University; Yang Ye, Columbia University

66 Scalable Architecture and Query Optimization for Transaction-time DBs with Evolving Schemas
Hyun Moon, NEC Labs; Carlo Curino, MIT; Carlo Zaniolo, UCLA

67 FAST: Fast Architecture Sensitive Tree Search on Modern CPUs and GPUs
Changkyu Kim, Intel; Jatin Chhugani, Intel; Nadathur Satish, Intel Corporation; Eric Sedlar, Oracle; Anthony Nguyen, Intel; Tim Kaldewey, Oracle; Victor Lee, Intel Corporation; Scott Brandt, University of California, Santa Cruz; Pradeep Dubey, Intel

69 Optimizing Content Freshness of Relations Extracted From the Web Using Keyword Search
Mohan Yang, Shanghai Jiao Tong University; Haixun Wang, Microsoft Research, Asia; Lipyeow Lim, ; Min Wang, HP Labs

81 B^ed-Tree: An All-Purpose Tree Index for String Similarity Search on Edit Distance
Zhenjie Zhang, National University of Singapo; Beng chin Ooi, National University of Singapore; Marios Hadjieleftheriou, AT&T Labs - Research; Divesh Srivastava, AT&T Labs - Research

83 Processing Proximity Relations in Road Networks
Zhengdao Xu, University of Toronto; Arno Jacobsen, University of Toronto

85 An Algorithmic Approach to Event Summarization
Peng Wang, Fudan University; Haixun Wang, Microsoft; Majin Liu, Fudan University; Wei Wang, Fudan University

101 Querying Data Provenance
Grigoris Karvounarakis, University of Pennsylvania; Zachary Ives, University of Pennsylvania; Val Tannen, University of Pennsylvania

106 Fast In-Memory Sort on Modern CPUs and GPUs: A Case for Bandwidth-Oblivious SIMD Sort
Nadathur Satish, Intel Corporation; Changkyu Kim, Intel; Jatin Chhugani, Intel; Anthony Nguyen, Intel; Victor Lee, Intel Corporation; Daehyun Kim, Intel; Pradeep Dubey, Intel

108 Sampling Dirty Data for Matching Attributes
Henning Koehler, The University of Queensland; Shazia Sadiq, The University of Queensland; Yanfeng Shu, CSIRO, Tasmanian ICT Centre; Kerry Taylor, CSIRO, ICT Centre; Xiaofang Zhou, The University of Queensland

113 Workload-Aware Storage Layout for Database Systems
Oguzhan Ozmen, University of Waterloo; Kenneth Salem, University of Waterloo; Jiri Schindler, NetApp, Inc.; Steve Daniel, NetApp, Inc.

140 GRN Model of Probabilistic Databases: Construction, Transition and Querying
Ruiwen Chen, University of Ottawa; Yongyi Mao, University of Ottawa; Iluju Kiringa, University of Ottawa

146 Efficient Parallel Set-Similarity Joins Using MapReduce
Rares Vernica, University of California, Irvine; Michael Carey, UC Irvine; Chen Li, Univ of California, Irvine and BiMaple

147 Towards Proximity Pattern Mining in Large Graphs
Arijit Khan, ; Xifeng Yan, ; Kun-Lung Wu, IBM Watson Research Center

152 ParaTimer: A Progress Indicator for MapReduce DAGs
Kristi Morton, University of Washington; Magdalena Balazinska, University of Washington; Dan Grossman, University of Washington

163 Page-Differential Logging: An Efficient and DBMS-independent Approach for Storing Data into Flash Memory
Yi-Reun Kim, KAIST; Kyu-Young Whang, KAIST; Il-Yeol Song, Drexel University

168 Multiple Features Fusion for Social Media Applications
Bin Cui, Peking University; Anthony Tung, National University of Singapore; Ce Zhang, PKU; Zhe Zhao, PKU

176 GAIA: Graph Classification Using Evolutionary Computation
Ning Jin, UNC at Chapel Hill; Calvin Young, UNC at Chapel Hill; Wei Wang, University of North Carolina at Chapel Hill

193 Consistent Query Answers in Inconsistent Probabilistic Databases
Xiang Lian, HKUST; Lei Chen, Hong Kong University of Science and Technology; Shaoxu Song, HKUST

213 TEDI: Efficient Shortest Path Query Answering on Graphs
Fang Wei, University of Freiburg

217 Processing Continuous Join Queries in Sensor Networks: a Filtering Approach
Mirco Stern, Universitaet Karlsruhe (TH); Erik Buchmann, Universitaet Karlsruhe (TH); Klemens Boehm, Universitaet Karlsruhe (TH)

242 An Optimal Labeling Scheme for Workflow Provenance Using Skeleton Labels
Zhuowei Bao, University of Pennsylvania; Susan Davidson, University of Pennsylvania; Sanjeev Khanna, University of Pennsylvania; Sudeepa Roy, University of Pennsylvania

252 GBLENDER: Towards Blending Visual Query Formulation and Query Processing in Graph Databases
Changjiu Jin, Nanyang Technological Univ; Sourav S Bhowmick, Nanyang Technological Univ; Xiaokui Xiao, NTU, Singapore; James Cheng, Nanyang Technological Univ; Byron Choi, Hong Kong Baptist University

267 An Evaluation of Alternative Architectures for Transaction Processing in the Cloud
Simon Loesing, ETH Zurich; Tim Kraska, ETH Zurich; Donald Kossmann, ETH Zurich

269 On Indexing Error-Tolerant Set Containment
Raghav Kaushik, Microsoft Research; Parag Agrawal, Stanford University; Arvind Arasu, Microsoft Research

271 Recsplorer: Recommendation Algorithms based on Precedence Mining
Aditya Parameswaran, Stanford University; Georgia Koutrika, Stanford University; Benjamin Bercovitz, ; Hector Garcia-Molina, Stanford

274 Load-Balanced Query Dissemination in Democratic Communities
Emiran Curtmola, UCSD; Alin Deutsch, UCSD; K.K. Ramakrishnan, AT&T Research Labs; Divesh Srivastava, AT&T Labs - Research

276 Differentially Private Aggregation of Distributed Time-Series with Transformation and Encryption
Vibhor Rastogi, University of Washington; Suman Nath, Microsoft

278 Feeding Frenzy: Selectively Materializing Users' Event Feeds
Adam Silberstein, Yahoo! Research; Jeffrey Terrace, Princeton University; Brian Cooper, Yahoo! Research; Raghu Ramakrishnan, Yahoo! Research

280 Finding Maximum Degrees in Hidden Bipartite Graphs
Yufei Tao, Chinese University of Hong Kong; Sheng Cheng, CUHK; Jianzhong Li, Harbin Institute of Technology

289 Constructing and Exploring Composite Items
Senjuti Basu Roy, UTA; Sihem Amer-Yahia, Yahoo! Research; Ashish Chawla, Yahoo! Inc; Gautam Das, University of Texas at Arlington; Cong Yu,

299 Searching Trajectories by Locations - An Efficiency Study
Zaiben Chen, The University of Queensland; Yu Zheng, Microsoft Research Asia; Heng Tao Shen, University of Queensland, Australia; Xiaofang Zhou, The University of Queensland; Xing Xie, Microsoft Research Asia

302 K-Isomorphism: Privacy Preservation in Network Publication against structural attack
James Cheng, ; Ada Fu, CUHK; Jia Liu, Chinese University of Hong Kong

307 Computing Label Constraint Reachability in Graph Databases
Ruoming Jin, Kent State University; Hui Hong, Kent State University; Haixun Wang, Microsoft Research, Asia; Yang Xiang, Kent State University; Ning Ruan, Kent State University

317 Logging Every Footstep: Quantile Summaries for the Entire History
Yufei Tao, Chinese University of Hong Kong; Ke Yi, HKUST; Sheng Cheng, CUHK; Jian Pei, Simon Fraser University; Feifei Li, Florida State University

320 Data Conflict Resolution Using Trust Relationships
Wolfgang Gatterbauer, University of Washington; Dan Suciu, University of Washington

321 Automatically Incorporating New Sources in Keyword Search-Based Data Integration
Partha Talukdar, University of Pennsylvania; Zachary Ives, University of Pennsylvania; Fernando Pereira, Google

325 Ef?ciently Evaluating Complex Boolean Expressions
Marcus Fontoura, Yahoo! Research; Suhas Sadanandan, Yahoo! Inc; Jayavel Shanmugasundaram, Yahoo! Research; Sergei Vassilvitski, Yahoo! Research; Erik Vee, Yahoo! Research; Srihari Venkatesan, Yahoo! Inc; Jason Zien, Yahoo! Inc

355 Durable Top-k Search in Document Archives
Leong Hou U, The University of Hong Kong; Nikos Mamoulis, University of Hong Kong; Klaus Berberich, MPII; Srikanta Bedathur, MPII

356 Non-homogeneous Generalization in Privacy Preserving Data Publishing
Wai Kit Wong, University of Hong Kong; Nikos Mamoulis, University of Hong Kong; David Cheung, University of Hong Kong

364 Active Knowledge: Dynamically Enriching RDF Knowledge Bases by Web Services
Nicoleta Preda, Max-Planck Institute; Fabian Suchanek, Microsoft Search Labs; Gjergji Kasneci, Max-Planck Institute for Informatics ; Thomas Neumann, Max-Planck Institute, Germany; Wenjun Yuan, Max-Planck Institute for Informatics ; Gerhard Weikum, Max-Planck Institute of Computer Sc.

374 How to ConQueR Why-Not Questions
Quoc Trung Tran, NUS; Chee-Yong Chan, National University of Singapore

376 Indexing Multi-dimensional Data in a Cloud System
Jinbao Wang, Harbin Institute of Technology; Hong Gao, Harbin Institute of Technology; Sai Wu, National Univ. of Singapore; Beng chin Ooi, National University of Singapore

378 Finding Maximal Cliques in Massive Networks by H*-Graph
James Cheng, ; Yiping Ke, CUHK; Ada Fu, CUHK; Jeffrey Xu Yu, Chinese University of Hong Kong; Linhong Zhu, NTU, Singapore

381 Connected Substructure Similarity Search
Haichuan Shang, UNSW; Xuemin Lin, University of New South Wales; Wei Wang, University of New South Wales; Jeffrey Xu Yu, Chinese University of Hong Kong; Ying Zhang, UNSW

386 Call to Order: A Hierarchical Browsing Approach to Eliciting Users' Preference
Feng Zhao, NUS; Gautam Das, University of Texas at Arlington; Kian-Lee Tan, National University of Singapore; Anthony Tung, National University of Singapore

396 Continuous Sampling for Online Aggregation Over Multiple Queries
Sai Wu, National Univ. of Singapore; Beng chin Ooi, National University of Singapore; Kian-Lee Tan, National University of Singapore

403 Histograms Reloaded: The Merits of Bucket Diversity
Carl-Christian Kanne , Univ. of Mannheim; Guido Moerkotte, University of Mannheim

406 Threshold Query Optimization for Uncertain Data
Yinian Qi, Purdue University; Rohit Jain, Purdue University; Sunil Prabhakar, "Purdue University, USA"; Sarvjeet Singh,

409 Boosting Spatial Pruning: On Optimal Pruning of MBRs
Tobias Emrich, Ludwig-Maximilians-Universitaet Muenchen; Hans-Peter Kriegel, University of Munich; Peer Kroeger, Ludwig-Maximilians-Universitaet Muenchen; Matthias Renz, Ludwig-Maximilians-Universitaet Muenchen; Andreas Zuefle, Ludwig-Maximilians-Universitaet Muenchen

412 Schema Clustering and Retrieval for Multi-domain Pay-As-You-Go Data Integration Systems
Hatem Mahmoud, University of Waterloo; Ashraf Aboulnaga, University of Waterloo

416 Variance Aware Optimization of Parameterized Queries
Surajit Chaudhuri, Microsoft Research; Hongrae Lee, University of British Columbia; Vivek Narasayya, Microsoft Research

419 Positional Update Handling in Column Stores
Sandor Heman, VectorWise; Marcin Zukowski, VectorWise; Niels Nes, ; Lefteris Sidirourgos, CWI; Peter Boncz, CWI

423 Expressive and Flexible Access to Web-Extracted Data: A Keyword-based Structured Query Language
Jeffrey Pound, University of Waterloo; Ihab Ilyas, U of Waterloo; Grant Weddell, University of Waterloo

427 TACO: Tunable Approximate Computation of Outliers in wireless sensor networks
Nikos Giatrakos, Unipi; Yannis Kotidis, Athens University of Economics and Business (AUEB) ; Antonios Deligiannakis, Technical University of Crete; Vasilis Vassalos, Athens University of Economics and Business; Yannis Theodoridis,

431 Structured Annotations of Web Queries
Nikos Sarkas, University of Toronto; Stelios Paparizos, Microsoft Research; Panayiotis Tsaparas, Microsoft Research

437 Similarity Search and Locality Sensitive Hashing using Ternary Content Addressable Memories
Rajendra Shinde, Stanford University; Ashish Goel, Stanford University; Pankaj Gupta, ; Debojyoti Dutta,

445 On Active Learning of Record Matching Packages
Arvind Arasu, Microsoft Research; Michaela Goetz, Cornell University; Raghav Kaushik, Microsoft Research

447 PR-Join: A Non-Blocking Join Achieving Higher Early Result Rate with Statistical Guarantees
Shimin Chen, Intel Labs Pittsburgh; Phillip Gibbons, Intel Labs Pittsburgh; Suman Nath, Microsoft

451 PODS: A New Model and Processing Algorithms for Uncertain Data Streams
Thanh Tran, UMass Amherst; Liping Peng, UMass Amherst; Boduo Li, UMass Amherst; Yanlei Diao, University of Massachusetts; Anna Liu, UMass Amherst

457 Probabilistic String Similarity Joins
Jeffrey Jestes, Computer Science Department, FSU; Feifei Li, Florida State University; Zhepeng Yan, HKUST; Ke Yi, HKUST

458 Lineage Processing over Correlated Probabilistic Databases
BHARGAV KANAGAL, University of Maryland; Amol Deshpande, Univ of Maryland

468 Preserving Privacy and Fairness in Peer-to-Peer Data Integration
Hazem Elmeleegy, Purdue University; Mourad Ouzzani, Purdue University; Ahmed Elmagarmid, Purdue University; Ahmad Abusalah, Purdue University

482 Fast Approximate Correlation for Massive Time-series Data
Abdullah Mueen, UC Riverside; Suman Nath, Microsoft; Jie Liu, Microsoft Research

486 Unbiased estimation of size and other aggregates over hidden web databases
Arjun Dasgupta, University of Texas Arlington; Xin Jin, George Washington University; Bradley Jewell, University of Texas at Arlington; Nan Zhang, George Washington University; Gautam Das, University of Texas at Arlington

491 Pregel: A System for Large-Scale Graph Processing
Greg Malewicz, Google, Inc.; Matthew Austern, Google, Inc.; Aart Bik, Google, Inc.; James Dehnert, Google, Inc.; Ilan Horn, Google, Inc.; Naty Leiser, Google, Inc.; Grzegorz Czajkowski, Google, Inc.

510 K-Nearest Neighbor Search for Fuzzy Objects
Kai Zheng, University of Queensland; Pui Cheong Fung, ; Xiaofang Zhou,

516 Low Overhead Concurrency Control in Partitioned DBMSs
Evan Jones, MIT; Daniel Abadi, Yale; Samuel Madden, MIT

518 I4E: Interactive Investigation of Iterative Information Extraction
Anish Das Sarma, Yahoo Research; Alpa Jain, Yahoo; Divesh Srivastava, AT&T Labs - Research

527 Monte Carlo Processing of Probabilistic Satisfiability Queries in MCDB
Luis Perez, Rice University; Subi Arumugam, U Florida; Christopher Jermaine, Rice U.

536 ERACER: A Database Approach for Statistical Inference and Data Cleaning
Chris Mayfield, Purdue University; Jennifer Neville, Purdue University; Sunil Prabhakar, "Purdue University, USA"

537 The DataPath System: A Data-Centric Analytic Processing Engine for Large Data Warehouses
Subi Arumugam, U Florida; Alin Dobra, UFL; Christopher Jermaine, Rice U.; Luis Perez, Rice University; Niketan Pansare, Rice University

540 ONDUX: On-Demand Unsupervised Learning for Information Extraction
Eli Vilarinho, Federal University of Amazonas; Altigran Silva, UFAM; Marcos Goncalves, UFMG; Edleno de Moura, Federal University of Amazonas

564 Ajax-based Report Pages as Incrementally Rendered Views
Yupeng FU, UCSD; Keith Kowalczykowski, app2you Inc; Yannis Papakonstantinou, UCSD; Kevin Keliang Zhao, UCSD; Kian Win Ong, UC San Diego

570 Analyzing the Energy Efficiency of a Database Server
Dimitris Tsirogiannis, University of Toronto; Stavros Harizopoulos, HP Labs; Mehul Shah, HP Labs

Welcome

Organization

Links

SIGMOD Program

PODS Program

For Attendees

Calls For Submissions

Accepted Research Papers